![]() |
Модераторы: korob2001, ginnie |
![]() ![]() ![]() |
|
burakov |
|
|||
Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 554 Регистрация: 28.7.2006 Репутация: нет Всего: нет |
Добрый день.
поставили задачу написать парсер поисковой выдачи google.ru пытаюсь сделать это при помощи lwp но вместо желаемого гугл отдает кучу jscript кода. подскажите на перл возможно написать такой парсер? и в какую сторону смотреть? спасибо. p.s. может можно какому то модулю на вход подать эти скрипты, а на выходе получить результат выполнения этих скриптов? или может быть как то можно LWP с поддержкой jscript собрать? или какая то консольная утилита-броузер есть, которая бы на выходе отдавала отработку js скриптов? технология firefox+mozrepl не подходит (все дожно работать в консоли). Это сообщение отредактировал(а) burakov - 7.6.2012, 09:17 |
|||
|
||||
EcSYZ |
|
|||
![]() Шустрый ![]() Профиль Группа: Участник Сообщений: 79 Регистрация: 21.6.2007 Репутация: нет Всего: 1 |
Гугл прекрасно парсится.
Не знаю зачем там JS, но если посмотрите ниже - найдёте собственно все результаты в html виде, который очень просто разобрать через dom-парсер. |
|||
|
||||
burakov |
|
|||
Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 554 Регистрация: 28.7.2006 Репутация: нет Всего: нет |
ничего не понимаю
вот урл http://www.google.ru/#hl=ru&newwindow=...%D0%BE&fp=1 файл который получился после отработки lwp прилагаю ничего похожего того, что есть на экране -- в файле найти не могу. может как то не так ссылку в LWP подставляю (но если вставить ее в адресную строку броузера -- все нормально) Присоединённый файл ( Кол-во скачиваний: 6 ) ![]() |
|||
|
||||
infarch |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 526 Регистрация: 13.3.2009 Репутация: нет Всего: 1 |
По запросу "http://www.google.com/search?q=euro+exchange+rate" получил вполне приличный результат.
Присоединённый файл ( Кол-во скачиваний: 8 ) ![]() |
|||
|
||||
EcSYZ |
|
|||
![]() Шустрый ![]() Профиль Группа: Участник Сообщений: 79 Регистрация: 21.6.2007 Репутация: нет Всего: 1 |
Кривой запрос и как следствие кривой результат - страница с одним полем для ввода запроса.
Конечно же там нету никаких результатов. Кстати сразу предупрежу - гугл любит частенько предлагать ввести капчу, так что не стоит пытатся его парсить без привязки к сервису по разбору капчей. https://github.com/ecsyz/WVS/blob/master/lib/WVS/SEP.pm - сусть думаю оттуда можно будет понять. Это сообщение отредактировал(а) EcSYZ - 7.6.2012, 15:05 |
|||
|
||||
burakov |
|
|||
Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 554 Регистрация: 28.7.2006 Репутация: нет Всего: нет |
большое спасибо.
вот этот запрос http://www.google.com/search?q=euro+exchange+rate у меня нормально отработал (хоть увидел, что реально все в файле есть). значит дело в запросе. антикапчу подключу, спасибо за предупреждение. |
|||
|
||||
GR0Mi |
|
|||
Шустрый ![]() Профиль Группа: Участник Сообщений: 85 Регистрация: 9.4.2010 Репутация: нет Всего: нет |
хм. у пеня на перле парсер хорошо работает. разве чтокапчу жрет и парсит только 100 страниц гугл больше не выдает нужно запрос менять
|
|||
|
||||
Lisssa |
|
||||
Новичок Профиль Группа: Участник Сообщений: 41 Регистрация: 27.9.2011 Репутация: нет Всего: нет |
|
||||
|
|||||
![]() ![]() ![]() |
Правила форума "Perl: CGI программирование" | |
|
Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, korob2001, sharq. |
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей) | |
0 Пользователей: | |
« Предыдущая тема | Perl: разработка для Web | Следующая тема » |
|
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности Powered by Invision Power Board(R) 1.3 © 2003 IPS, Inc. |