Есть идея запилить один вебсервис для народа. Суть в том, что буду парсить один из сторонних сервисов, в том числе с авторизацией итд. На селениуме запилить будет намного проще и безопасней (сторонний сервис против парсинга себя). Но насколько селениум ресурсотребователен? Условно 100 потоков одновременного парсинга самописной парсилкой и с использованием селениума насколько сильно отличаться будут? Там ведь целый экземпляр браузера создаётся практически. Подозреваю, что я такое просто не вытяну на хостинге за 500р.
>>133452 (OP) >Условно 100 потоков одновременного парсинга >На хостинге за 500р Ахахахаха, аш до слёз сука. Ты видимо тотальный нуб, потому что сейчас полную лажу сказал.
Во-первых, какой selenium, все нормальные люди используют puppeteer. Он быстрее селениума процентов на 15-20%.
Какой "хостинг за 500 рублей", ты там случайно не перегрелся? Под твой скрапер нужно покупать 4-х ядерный VPS с 8 гигайтами памяти МИНИМУМ. Это чтобы он хотя бы более-менее пахал. И то, даже 4-х ядерный впс максимум держит 4 потока в параллеле (да-да, юный падаван, требователен не селениум, а сам браузер, хром жрёт ресурсы как голодный слон, привыкай).
Под 100 потоков нужно ебанный дата-центр арендовать. Бредятина полнейшая. Короче, за сам хостинг придётся отдавать $40-80 ЕЖЕМЕСЯЧНО. Мы одно время хостились на амазоне и отдавали по $500 в месяц (реалии жизни ботоводов).
Тем более, если ты говоришь, что сторонний сервис против парсинга себя, значит тебе придётся закупить ещё резидентных прокси. Допустим берём smart proxy, добавляй ещё $75 ежемесячно.
Короче, если у тебя нет возможности платить по $100-200 ежемесячно за сервис - можешь даже не рыпаться. Серьёзно. Без вложений там просто нехуй делать. Ах да, ещё по мелочи добавь утечки памяти, и прочие радости.
>>133453 Нет, почему же закрывать. Просто теперь стало понятно, что с моим бюджетом мне придётся рисковать и пилить собственную парсилку, которая будет пожирать минимум ресурсов.
>>133455 >пилить собственную парилку Нахуя? Вы что, ебанутые? У вас идея фикс - писать парсеры? В 90% случаев парсер не нужен. Проблема решается через API, это будет в миллион раз дешевле, в миллион раз быстрее и в миллион раз надежнее, чем сраный парсер.
Ну нет у тебя денег на кошерный скрапер - ну возьми ты BeautifulSoup, я не знаю... Если совсем уж без реальных браузеров не вариант, тогда https://www.browserless.io/
>>133452 (OP) > Суть в том, что буду парсить один из сторонних сервисов, в том числе с авторизацией итд. И сразу нахуй таких червей пидарасов. Весь интернет засрали черти.
>>133555 Фига, не знал. Все равно твой совет не в тему, так как ОП явно собирается пиздить что-то недоступное легально, поэтому и городит селениумы с проксями и фингерпринтами