Поисковая система Gorbushka.ru: Портфолио фрилансера Борис Мурашин 31.07.2008, работа №1 - FL.RU
Борис Мурашин
Стоимость указана, чтобы вам было проще оценить примерные расходы на решение вашей задачи. Окончательную цену фрилансер сможет сообщить в личной беседе после уточнения деталей.
Похожая работа будет стоить
120 000 rub

Примерный срок выполнения

2 месяца

К списку работ
Борис Мурашин
Борис Мурашин

Поисковая система Gorbushka.ru

image
Над проектом работал коллектив из 5 человек, в т.ч. 2 программиста. В мои задачи входило: Скачивание прайс-листов торговых организаций в формате XML (формат определен Яндекс.Маркет и также используется Price.ru) - порядка 1200 на момент сдачи проекта. Пришлось решать проблемы с плохой доступностью серверов части магазинов, организовывать многопоточное скачивание (средствами Curl), многократное и "мягкое" скачивание для плохо-доступных серверов. Валидация, коррекция (с помощью Tidy) и парсинг прайс-листов (средствами DOM). Проблемы: плохо сформированные прайс-листы, не соответствующие стандарту XML или не следующие определению формата (DTD Яндекс.Маркет), необходимость организовать возможность ре-парсинга для неожиданно изменившихся или поздно скачанных прайс-листов с обновлением таблицы товаров и индексной таблицы, Огромный размер таблиц - 800 Мб для товаров и индекса (на момент сдачи). Установка (компиляция), настройка и написание интерфейса к поисковому движку (название не разглашается) на сервере под управлением Linux fedora core 4 и организация индексации им таблиц в БД с ротацией, незаметной для пользователей сайта, а также установка и тонкая настройка Apache, PHP и MySQL на сервере. Документирование всего написанного мной кода.
gorbushka.ru