Эвмен
( )
17/07/2018 23:33:27
Re: Цены на интимсити. График.

Цитата:

Надеюсь, ваш код учитывает то обстоятельство, что на разных страницах интимки анкеты повторяются. Бывает, до половины. Даже если вы сразу подгрузили все страницы интимки, а не кликали подряд.Но в целом вывод подтверждается: в ценовой категории до 3 тыс. (включительно) ~40% всех анкет, а если взять до 5 тыс., то большая часть. 


По моим наблюдениям если не применять всякие сортировки/фильтры, то анкеты особо не повторяются, другое дело, что у многих девочек бывает по 2-3 анкеты с разным id, но почти одинаковыми фото - такие ситуации я не учитываю. При быстрой скорости интернета как правило получается список без повторяющихся id. Провел нагрузочное тестирование, если между прогрузкой страниц добавить задержки и растянуть весь процесс на 5-7 минут, то в списке начинают появляться дубликаты, однако немного - всего 1-2. Скорее всего это обусловлено изменениями в анкетах за время полной загрузки всех страниц. Сейчас код не учитывает появление дубликатов, но по факту их почти и нет. 

А так "подчистить" дубликаты это всего лишь еще пара строчек кода. На мой взгляд текущая погрешность вполне приемлема. Если дойдут руки, то напишу более интеллектуальный парсер, который после формирования списка id будет постранично прогружать все анкеты и доставать детальную информацию об услугах, возможно даже с некой склейкой похожих анкет с разным id. Но это уже в долгосрочной перспективе если будут силы и настроение. 

Еще такой момент, использовать python скрипт будут только те, кто более менее представляет что это такое и как это работает. Таким образом для целевой аудитории не проблема допилить проверку или для надежности запустить скрипт 2-3 раза.