Главная Юзердоски Каталог Трекер NSFW Настройки

Web-мастера

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 45 8 18
Что за парсеры работают в группах вкашке? Аноним 11/10/20 Вск 21:46:38 129834 1
PvN7S.png 70Кб, 353x405
353x405
Вот допустим какой-то паблик, там чел пишет или употребляет определенные ключевые слова в тексте и тут же активируются какие-то боты, которые дают там свои контакты итд, причем это не всегда боты, там может какая-та гадалка быть или представитель компании(живой) и тут же свои услуги навязывают. Недавно заметил такую фигню еще и на мейл ответах, там если вопрос содержит ключевое слово, то спустя пару секунд приходит бот и дает рекламу по теме вопроса.

Может ли это какой-то готовый продукт быть типо зенки, но специализирующийся на детекте сообщений? На зенку не думаю т.к это слишком громоздкая вещь и сложная, маги всякие и гадалки не освоят работу с ней, а платит баблища такие как сама программа 15к, шаблон для зенопостера 5-10к за штуку для одного ресурса + постоянные отладки из-за изменения стилей всяких внутри кода страницы и мощный комп для того, чтоб тянуть все шаблоны. Какие варианты кроме зенки еще могут быть?
Аноним 11/10/20 Вск 22:17:04 129835 2
>>129834 (OP)
Это не парсеры, а онлайн-сервисы! Платишь 300 рупь каждый месяц и будет тебе мониторинг. Я сам подобный сайт писал. И мне знакомые кодеры присылали ссылку на нечто подобное, точного названия не помню, но самый известный это https://starcomment.io/.

Собственно нихуя сложного или магического в них нет. Идея проста как три рубля - ставишь скрипт на таймер, запускаешь например раз в 5 минут. При запуске загружаешь последние 1000-2000 записей, парсишь на предмет ключевых слов. Есть совпадение? Оповещаешь смской автора. Всё. Там всего-то строчек 200 кода.

Про зеннопостер хуйню сказал нерелевантную. Причем здесь вообще он?
Аноним 11/10/20 Вск 22:35:25 129836 3
>>129834 (OP)
>постоянные отладки из-за изменения стилей всяких внутри кода страницы
Опять же, хуйню несешь. Ничего не нужно парсить, никакие шаблоны, стили и т.д. Есть готовые апи и у mail.ru, и у вконтакте, и у всех остальных.

Легко продемонстрирую как это делается. Открой:
https://otvet.mail.ru/api/v2/questlist?ajax_id=2&n=100&state=A&cat=otvet
Вот так легко я получил последнюю сотню вопросов. И не нужно парсить никакой HTML. Чуть-чуть дорабатываешь цикл for и можно получать любое количество вопросов, хоть 10.000, хоть миллион.

Учи матчасть короче.
Аноним 11/10/20 Вск 23:06:12 129837 4
>>129835
>Собственно нихуя сложного или магического в них нет. Идея проста как три рубля - ставишь скрипт на таймер, запускаешь например раз в 5 минут. При запуске загружаешь последние 1000-2000 записей, парсишь на предмет ключевых слов. Есть совпадение? Оповещаешь смской автора. Всё. Там всего-то строчек 200 кода.
Нет, не так. В вк за 10-30 сек маги и гадалки детектив сообщения и отвечают.
Аноним 11/10/20 Вск 23:24:16 129838 5
>>129836
>Опять же, хуйню несешь. Ничего не нужно парсить, никакие шаблоны, стили и т.д. Есть готовые апи и у mail.ru, и у вконтакте, и у всех остальных.
там есть ограничения на количества запросов, постоянно работать парсер не сможет.
Аноним 12/10/20 Пнд 03:56:56 129839 6
Аноним 12/10/20 Пнд 07:34:30 129840 7
>>129837
>Нет, не так. В вк за 10-30 сек маги и гадалки детектив сообщения и отвечают.
Ну какая хуй разница! Я объясняю общий принцип. А как часто они скрипт запускают - раз в секунду или раз в месяц это их личное дело. Тем более мониторить определенную группу или несколько групп труда не составляет. Количество данных - копеечное.

>>129838
>там есть ограничения на количества запросов, постоянно работать парсер не сможет.
Да что ты такое говоришь! В вк ограничение стоит ограничение 20 запросов В СЕКУНДУ! Если только тебе нужна прям миллисекундная реакция... тем более чел выше уже подсказал, у вк есть long poll API, задача ещё упрощается, вк сам будет оповещать, когда появится новый пост.
Аноним 12/10/20 Пнд 16:39:14 129850 8
>>129839
заскринь и обведи если хочешь доказать что это не так.
Аноним 12/10/20 Пнд 16:39:35 129851 9
>>129840
>А как часто они скрипт запускают - раз в секунду или раз в месяц это их личное дело. Тем более мониторить определенную группу или несколько групп труда не составляет. Количество данных - копеечное.
постоянный мониторинг, я проверял.
Аноним 12/10/20 Пнд 18:00:28 129854 10
>>129851
>постоянный мониторинг
Выше уже писал про long polling. Тред можно закрывать.

>>129850
>заскринь и обведи если хочешь доказать что это не так.
Не обводи ничего, пускай идет нахуй. Переубеждать твердолобых баранов, что они неправы - себе же дороже. Захотел бы - нашел всё сам. А тут ОП просто ушел в полное отрицалово, ну и хрен с ним.
Аноним 14/10/20 Срд 22:39:56 129880 11
>>129854
>Не обводи ничего,
пусть обводит
Аноним 15/10/20 Чтв 02:14:31 129881 12
>>129880
>пусть обводит
Не буду. Вобще хуй пойму про что спор. Если группа твоя, можно организовать мгновенную реакцию на события, если чужая, то нельзя, придется с некой периодичностью проверять группу на предмет новых событий.
Аноним 15/10/20 Чтв 21:55:35 129886 13
>>129881
> Если группа твоя, можно организовать мгновенную реакцию на события, если чужая, то нельзя, придется с некой периодичностью проверять группу на предмет новых событий.
Вот в том то и дело, что маги и гадалки группами этими не владеют, но оповещение о ключевом слове получают мгновенно.
Аноним 16/10/20 Птн 02:01:22 129890 14
>>129886
значит владелец шлет магам и гадалкам уведомления за бабки, а может эти гадалки и есть владелец. Так или иначе, мгновенность может быть инициирована только со стороны вконтакта.
А вобще, с правами доступа надо поточнее разобраться, но это ты уже сам. Может можно присосаться к любой группе.
16/10/20 Птн 12:30:40 129893 15
201606270906417[...].jpg 31Кб, 480x512
480x512
>>129886
>>129890
Бля, какие-то долбоебы здесь сидят. Владелец группы шлёт уведомления за бабки? Чего блять? Про что несёте? Элементарно через апи всё делается, не нужно быть никаким владельцем группы. Это простейшая сцуко техническая задача, выше ужё всё детально объяснил. Опять идут "вы всё врёти". Мне в лом писать скрипт, но вы реально какие-то наркоманы и не лечитесь.
Аноним 16/10/20 Птн 16:04:33 129894 16
>>129893
>Владелец группы шлёт уведомления за бабки? Чего блять?
http-запрос блять! Ты реально не понимаешь такой схемы сотрудничества?
>Элементарно через апи всё делается
Опу нужно не просто через апи, а МГНОВЕННО, то есть Callback API или Bots Long Poll API.

>Чтобы начать использовать Callback API, подключите свой сервер в настройках сообщества («Управление сообществом» → «Настройки» → «Работа с API»).
>Чтобы использовать Bots Long Poll API, откройте раздел «Управление сообществом», на вкладке «Работа с API»→«Long Poll API» выберите «Включён».
Хуй его знает, как оно по факту, но в документации написано это.
>не нужно быть никаким владельцем группы
То есть, ты утверждаешь, что «Управление сообществом» → «Настройки» → «Работа с API» доступно любому обмудку? Я такое могу допустить, но че-то нихуя не верится. Проверить не могу, така как нет вконтактика.
Аноним 16/10/20 Птн 17:25:20 129895 17
>>129894
Хотя с другой стороны, нахуя Опу уж прям мгновенно, когда можно раз в секунду заебывать вконтактик на предмет, "а нет ли там чего нового в обсуждении" (метод board.getTopics), и уж если что-то новое появилось, запускать сбор новых сообщений (метод board.getComments) и пихать их в свой анализатор ключевых слов.

Если смысл не в том, чтоб быть самым быстрым ответившим, такая схема вполне подойдет.
Аноним 16/10/20 Птн 17:30:28 129896 18
>>129894
>не просто через апи, а МГНОВЕННО
Тугодум что-ли, тебе объяснили уже, что у вк апи ограничение 20 запросов в секунду или 1 запрос в 50 миллисекунд. Визуально не будет чувствоваться разницы, между long poll api и обычным быстро повторяющимся запросом.

>То есть, ты утверждаешь, что...
Ты жопой читаешь документацию, оба и long poll API и callback API предназначены для действий от имени сообщества. Когда группе нужно отвечать/модерировать сообщения. Через обычный же wall.get можно читать любые сообщения любой открытой группы. И чего ж тебе ещё, собака, надо?

>Ты реально не понимаешь такой схемы сотрудничества?
Наркоман блять, я вызываю санитаров, срочно.
Если ключи давать всяким левыми ботам, соответственно они смогут и всякую хуйню от имени группы писать, и тереть посты какие вздумается.

>>129895
Дааааа, долго же до тебя доходит...
Аноним 16/10/20 Птн 18:04:32 129897 19
>>129896
>объяснили уже
Пришлось перечитать тред, чтоб понять, кто там что объяснял. Да, все было озвучено.
>Если ключи давать всяким левыми ботам, соответственно они смогут и всякую хуйню от имени группы писать, и тереть посты какие вздумается.
Так в этом же и смысл, выдавать не ключи а уведомление. А дальше не ебет левые боты от своего имени работают.
Аноним 24/10/20 Суб 18:43:33 129998 20
>>129890
>значит владелец шлет магам и гадалкам уведомления за бабки
Слушай, мне уже надоели твои попытки доказать свое тупое мнение! Какой блять маг будет кидать бабло в сотни групп, это же тебе не spacex блять.
Аноним 24/10/20 Суб 18:44:31 129999 21
>>129893
>Элементарно через апи всё делается,
Можно в чужой группе мониторить сообщения через API?
Аноним 24/10/20 Суб 19:46:27 130000 22
14232231181699.jpg 92Кб, 620x465
620x465
>>129999
>Можно в чужой группе мониторить сообщения через API?
Да похеру, в любой открытой группе можно. АПИ для того и существуют. При определенном скилле можно мониторить весь вконтакт, хоть в комментах к фотографиям рандомных чуваков. Я так реддит мониторил. Часто ID постов формируются по порядку, грубо говоря ID поста 100, за ним идёт 101. Зная начальный ID, можно циклом for откручивать посты на любое число назад. Просто IRL чуть сложнее, может 16-тиричная система использоваться. Но это уже дело техники.
Аноним 24/10/20 Суб 20:01:22 130001 23
>>130000
>ID поста 100, за ним идёт 101. Зная начальный ID, можно циклом for откручивать посты на любое число назад
там всяко есть ограничения на подобную хрень, иначе если каждый начнет прогружать 1кк постов в секунду, то никаких ресурсов у сервера не хватит.
Аноним 24/10/20 Суб 20:44:44 130002 24
>>130001
>есть ограничения на подобную хрень
Читай начальные посты треда, уже всё разжевывал. Не люблю по 10 раз объяснять. Даже если в день публикуют миллион записей, в одних сутках 1440 минут. Делим на 1440, в минуту выходит не так много, всего лишь 694 записей. Допустим, на API стоит ограничение - 100 записей/запрос. Тебе нужно за минуту сделать всего лишь 7 запросов в цикле for. Обычный curl_multi_init делаешь и он в параллеле несколько запросов шлет.
https://www.php.net/manual/en/function.curl-multi-init.php

Я делал такое кучу раз. Самый дохлый vps с 512 мб оперативки до 10-100 миллионов сообщений может пропарсить. Ограничения на апи не релевантны, т.к. они обычно налагаются на количество запросов в минуту, а не на общее количество вызовов.
Аноним 24/10/20 Суб 21:37:29 130003 25
>>130002
>Я делал такое кучу раз. Самый дохлый vps с 512 мб оперативки до 10-100 миллионов сообщений может пропарсить. Ограничения на апи не релевантны, т.к. они обычно налагаются на количество запросов в минуту, а не на общее количество вызовов.
Если админ группы против давать кому-то парсить свой контент через API, то все равно можно?
Аноним 24/10/20 Суб 23:04:10 130004 26
>>130003
>Если админ группы против
Бля, а что ты сделаешь? Парсинг всегда делается незаметно, ты никогда не узнаешь, если кто-то мониторит твою группу. Да и контент - не лично твой, технически всё что попадает в соцсеть, является собственностью самой соцсети. Об этом наверняка где-то упомянуто мелким шрифтом, который никто не читает.
Аноним 26/10/20 Пнд 16:04:54 130016 27
124353245.JPG 36Кб, 609x634
609x634
>>130004
Вот вчера создал тему в местном паблике со словом "гадалка" и через час в нем начали отписывать маги, а админ их тут же банил.

Если через API можно мониторить чужую группу, то как с токенами быть? Там же токен нужно получить на такое дело.
Аноним 26/10/20 Пнд 16:07:43 130017 28
Аноним 26/10/20 Пнд 16:08:30 130018 29
>>130017
т.е один из них делает вид, что воспользовался услугами мага и остался доволен.
Аноним 26/10/20 Пнд 22:11:41 130025 30
>>130016
>то как с токенами быть?
Ты сейчас серьезно? На дваче что, одни тугодумы сидят? Это вообще секундное дело, делается в три клика. Открываешь https://vkhost.github.io/, тыкаешь vk api, тыкаешь разрешить. Заебал ты уже, остается только сам скрипт написать. И то блять ты не поверишь, скажешь это через zennoposter сделано.
Аноним 27/10/20 Втр 13:18:11 130027 31
>>130025
>тыкаешь vk api, тыкаешь разрешить
объясни нормально, это действие нужно чтобы разрешить кому-то что-то делать с API своей группы?
Аноним 27/10/20 Втр 22:39:59 130028 32
d61.gif 318Кб, 480x480
480x480
szoterannotated[...].jpeg 303Кб, 734x699
734x699
>>130027
>это действие нужно чтобы разрешить кому-то что-то делать с API своей группы?
Пиздец нахуй. Не тугодум, а тугодумище. API привязан к пользователю! Вот ты Иванов Иван Иваныч, через API тебе позволено делать всё то же, что позволено Иванову Ивану через обычный интерфейс - смотреть группы, слать сообщения от своего имени, если твой профиль Иванова Ивана банят в группе, соответственно бот не сможет читать сообщения. Или если группа огороженная. А если ты в группе модером, соответственно у твоего бота тоже будут права модера. У кого что просить, не пойму? Токен всего один блять! Один сука токен на один аккаунт ВК. Или один токен на одно сообщество ВК. Единственное препятствия - сами правила ВК, пункт 2 "Работа с данными", мониторя вкашные группы, ты обкрадываешь вконтакт. Так как вк хочешь, чтобы ты заносил денюжку за рекламу. А так как денежку ты не заносишь, то и по головке тебе скорее всего не погладят...
Аноним 03/11/20 Втр 02:32:07 130092 33
2020-11-0302-29[...].jpg 131Кб, 1603x905
1603x905
>>130028
ебать у тебя жопу рвет, схуя ли ты от гадалки ожидаешь понимание предметной области программиста?

Кстати, вот я на зеннопостере парсер сделал, ну и где твой бог теперь?
Аноним 03/11/20 Втр 05:20:58 130094 34
2d3ce5253142470[...].png 856Кб, 735x1100
735x1100
>>130092
Рил программист не будет шквариться обо всякие зеннопостеры. Я просто своим методами делаю и всё. Что-ж, сделал... значит держи конфетку с полки. Хм, интересно. Не знал, что так можно. Тем не менее, это вся красота работает только когда комп с зеннопостером включен, в то время когда скрипт можно залить на сервер и он будет работать 24/7.
Аноним 03/11/20 Втр 11:17:51 130110 35
>>130094
Для прототипирования самое то, но парсер непосредственно wall.get я доделал уже на пыхе.
>в то время когда скрипт можно залить на сервер и он будет работать 24/7
Зену тоже можно, только сервера на винде дорогое удовольствие.
Аноним 09/11/20 Пнд 22:00:15 130222 36
>>130092
ты с применением программирования сделал, а теперь сделай это чисто на блоках этих встроенных.
Аноним 09/11/20 Пнд 22:32:14 130223 37
>>130110
>Зену тоже можно, только сервера на винде дорогое удовольствие.
И под зену там сервак за 5к минимум наверное нужен.
Аноним 10/11/20 Втр 08:04:21 130229 38
>>130222
>ты с применением программирования сделал, а теперь сделай это чисто на блоках этих встроенных.
На самом деле, все эти блоки лишь обертка над C#, так что, чтоб я ни делал, все равно получится трансляция в код.
Но в конкретно этом случае я не написал ни одной строчки кода, если не считать SQL, но это скорее к вопросу об организации хранения данных.

>И под зену там сервак за 5к минимум наверное нужен.
пару гектар памяти и ядро процессора на ОС и простенький парсер хватит =) Хотя, одному чуваку я как-то делал многопоточную систему обработки данных на серваке с 128ГБ памяти и каким-то процем с ебическим количеством ядер. Загрузили лишь на треть, остальное осталось про запас.
Аноним 12/11/20 Чтв 11:27:40 130295 39
>>129896
как сделать перебор сообществ?
без рофлов, вот я выяснил, что их 520к.
Условно я хочу перебирать их все на наличие на их стенах определенных постов, мне айдишники по порядку гонять или как их перебрать?
Аноним 13/11/20 Птн 14:21:46 130308 40
>>130295
>как сделать перебор сообществ?
Если нет навыков программирования - никак.

>Условно я хочу перебирать их все на наличие на их стенах определенных постов, мне айдишники по порядку гонять или как их перебрать?
В порядке очереди с выбыванием из очереди давно мертвых айдишников (последний пост более N лет назад).
Аноним 13/11/20 Птн 15:38:06 130309 41
>>130308
Навыки есть, на пожилом питоне, но тем не менее.

Например,
делаю wall.get паблика с айди = 1 пока стена не закончится
в этом говне среди айди юзеров ищу нужный мне.
Затем паблик с айди = 2 и так далее.
Плюс перед этим поставить проверку, чтобы ласт пост был недавно.

Верно? Как-то слишком в лоб получается.
Спасибо за ответ.
Аноним 13/11/20 Птн 17:05:59 130310 42
>>130295
>>130309
Не спец по ВК апи, но то, что ты говоришь - жутко неоптимально. Зачем тебе знать количество групп? В ту секунду когда ты пишешь, их может быть стало уже 521 тысяча. Используй вкшный метод groups.search. Не вижу смысла перебирать, если есть уже готовый метод search.

Даже когда мне требуется сделать перебор по чему-либо, я почти всегда раскладываю по партиям, максимум сколько API позволяют. Например, в одном запросе 100 сообществ. Типа через запятую 1000,1001,1002,1003,1004,... если результаты пагинируются, можешь в рекурсии забирать следующую страницу, пока всё не исчерпаешь.

Так ты трафик экономишь, если ты все по одному будешь перебирать, тебя давно админы хостинга переебошат банхаммером. Либо сам вконтакт. Короче не изобретай велосипеды - если есть готовый метод search - бери его. Перебор только в крайнем случае следует использовать.
Аноним 15/05/21 Суб 08:11:59 132729 43
Как раз недавно сделал такую залупу, суть такая, задаёшь строку поиска, например маги и колдуны, и дальше получаешь все группы пользователь обсуждения в группах, и после этого начинаешь искать что тебе нужно, в моем же случае я просто спамлю в группы и обсуждения с нужными мне ключами. Могу поделится так как в полную мощность свои есурсы не использую, пиши если интересно.
Аноним 20/05/21 Чтв 23:26:27 132802 44
>>130092
Никогда не понимал - зачем изучать этот всратый зеннопостер и его скриптинг, если можно сразу взять нормальный современный ЯП? Гораздо полезнее будет же - можно ведь не только парсеры писать, а и те же сайты, ботов и прочую веб, и не очень, хрень. Можно даже свой двач заебенить.
Аноним 26/03/24 Втр 16:44:46 138675 45
>>129834 (OP)
>тыкаешь vk api, тыкаешь разрешить.
заебал ты не составляет.
количество данных - раз в соцсеть, является собственностью самой соцсети.
об этом же до 10-100 миллионов сообщений может пропарсить.
ограничения на
Ответить в тред Ответить в тред

Check this out!

Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов