Новости Москвы
Мы в Telegram
Добавить новость

Парсер для сайта Cian.ru (Циан)

«Фрилансим»
301
Необходимо спарсить подробные данные по продажам квартиры в новостройках г. Москвы.

По сколько сам сайт хорошо борется с парсингом необходимо будет обойти ряд трудностей, что поможет провести эффективный парсинг в относительно сжатые сроки 2-3 дня.

Примерный объем объявлений, которые необходимо получить: 50 000

Логика парсера:

1) По заданным условиям поиска (Город, Метро, Новостройка, Продажа, Квартиры, Кол-во комнат; возможно будет добавлено еще 1-2 условия) необходимо подгрузить объявления.

Тут появляется первая трудность, сайт не выдает в открытом поиске все найденные объявления по заданным условиям, поэтому после того как будут получены все объявления со страниц, необходимо будет поменять тип сортировки (например от макс. цены к мин., от бОльшего размера квартиры (м2) к меньшему, итп.) , что позволит увидеть объявления, которые ранее не были спаршены.

2) Зайти в каждое объявление (карточку), забрать из нее все хар-ки, которые будут указаны (где-то их больше, где-то меньше, но в среднем порядка 6-7 штук, список будет чуть ниже).

3) Объявление можно будет идентифицировать (ID) через ссылку, поэтому перед тем как перейти по ссылке карточки (объявления), нужно будет проверять, а не был ли оно уже спаршено.

4) Собрать всю статистику либо в одну большую .csv, либо в несколько раздельных файлов (для каждой станции метро).

5) Очевидно, что подобный способ парсинга будет вызывать проверку по капче и будет довольно медлительный, поэтому необходимо организовать мультипроцессинг с использованием прокси, чтобы сбор шел с разных IP одновременно.

Хар-ки, которые нужны:

1. Автор объявления
2. Тип автора (частное лицо, девелопер, итп.)
3. ссылка (она же уник. идентификатор)
4. Тип жилья (квартира, апартаменты, итп.; нам нужны только квартиры, но это необходимо чтобы убедиться в том, что парсинг производится валидно)
5. Этаж
6. Этажей в здании
7. Кол-во комнат
8. Общая площадь (м2)
9. Жилая площадь (м2)
10. Сдан ли дом
11. Год сдачи (постройки)
12. Отделка
13. Санузел (кол-во)
14. Тип отопления
15. Тип дома
16. Тип жилья (по идее все должны быть новостройки, поэтому эта метрика скорее больше для контроля)
17. Адрес
18. Метро
19. Район
20. ЖК
21. Расстояние до ближайшего метро

Если получится, доп.

22. Координаты_Х
23. Координаты_Y

Это в теории, возможно вытащить с карты.

В случае отсутствии хар-ки, поставить значение -1. Со всеми хар-ками помогу разобраться, подскажу где они находятся, как их можно вытащить.

Есть пример кода и библиотеки на Python, но требует явной доработки и скорее может быть использовано как костыль.

Основной трудностью будет обход блокировки со стороны сайта и запуск параллельного парсинга. При необходимости, прокси будут оплачены отдельно. Список метро Москвы также имеется в готов виде.

По срокам: в идеале завершить программу за 1-2 дня, закончить сбор за 3-4 дня. По цене готов обсуждать.

Все новости Москвы на сегодня

Новости Москвы

Другие новости Москвы


Другие города Московской области

Все новости сегодня

Происшествия

СТАВОК БОЛЬШЕ НЕТ


VIP

Театрально-кукольные вести из Бурятского театра "Ульгэр": Россия, Культура, Театр, Дети - Серебряные звездочки засветились в буддийском дацане в Иволге


Новости 24 часа

Секреты успешного садоводства


Українські новини

Estischool - Школа за британською програмою


Game News

Microsoft reckons its new Prism x86 emulation for Arm PCs is as good as Apple's Rosetta


News Every Day

Full list of cafes and restaurants where kids can eat free or cheap this half term – including Asda and Sizzling Pubs



Москва

«Адвокат Валиевой: ей подсыпали допинг и сделал дедушка». Серьёзное расследование.


Кристина Орбакайте

Мрачное настроение Кристины Орбакайте вызывает беспокойство: “Я молю тебя послать ангелов для защиты моей семьи”


Москва

Сергей Гаврилов - «Российской газете»: Получить государственные и муниципальные земли в аренду или собственность без торгов могут фермеры до конца 2024 года


Сергей Собянин

Собянин: Центральный кластер комплекса МГТУ им. Н.Э. Баумана будет готов в июне


Москва

Снижение иммунитета и обострение болезней: как бороться с бессонницей


Москва

Не так полезны: Соломатина перечислила топ-3 вредных супов





Moscow.media (Москва.Медиа) — региональный паблик медиа-новостей Москвы и Московской области (в том числе и в Москве) на основе уникальной технологичной новостной информационно-поисковой системы с элементами искусственного интеллекта, гео-отбора и возможностью мгновенной публикации авторского контента в режиме Free Public от Smi24.net и "аксакала" новостей онлайн 123ru.net.

Moscow.media — тематический гео-мониторинг медиапространства более 20 000 источников ежеминутно, в деталях. Москва.медиа — все Ваши новости сегодня и сейчас в Москве онлайн.

Опубликовать свою новость в Москве и в любом городе, регионе, стране на любом языке можно мгновенно — здесь.

Rss.plus

Москва на Ria.city

Светские новости (слухи, сплетни, сарафанное радио, шоу-бизнес, рейтинги)


Власть


Оппозиция


Украина


Беларусь


Жизнь


Блоги


Развлечения


Сегодня в мире


Другие новости сегодня




Все города России от А до Я


Мы собрали ВСЁ, что интересно по этому поводу – СЕГОДНЯ