Модераторы: korob2001, ginnie
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> парсер гугл 
:(
    Опции темы
burakov
Дата 7.6.2012, 08:39 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 554
Регистрация: 28.7.2006

Репутация: нет
Всего: нет



Добрый день.

поставили задачу написать парсер поисковой выдачи google.ru 
пытаюсь сделать это при помощи lwp
но вместо желаемого гугл отдает кучу jscript кода.

подскажите на перл возможно написать такой парсер?
и в какую сторону смотреть?

спасибо.

p.s.
может можно какому то модулю на вход подать эти скрипты, 
а на выходе получить результат выполнения этих скриптов?

или может быть как то можно LWP с поддержкой jscript собрать?
или какая то консольная утилита-броузер есть, которая бы на выходе отдавала отработку js скриптов?

технология firefox+mozrepl не подходит (все дожно работать в консоли).

Это сообщение отредактировал(а) burakov - 7.6.2012, 09:17


--------------------
Нотный архив http://libnote.ru скачать ноты бесплатно
PM MAIL   Вверх
EcSYZ
Дата 7.6.2012, 12:33 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 79
Регистрация: 21.6.2007

Репутация: нет
Всего: 1



Гугл прекрасно парсится.
Не знаю зачем там JS, но если посмотрите ниже - найдёте собственно все результаты в html виде, который очень просто разобрать через dom-парсер.
PM MAIL WWW   Вверх
burakov
Дата 7.6.2012, 13:15 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 554
Регистрация: 28.7.2006

Репутация: нет
Всего: нет



ничего не понимаю

вот урл
http://www.google.ru/#hl=ru&newwindow=...%D0%BE&fp=1

файл который получился после отработки lwp
прилагаю


ничего похожего того, что есть на экране -- 
в файле найти не могу.


может как то не так ссылку в LWP подставляю (но если вставить ее в адресную строку броузера -- все нормально)


Присоединённый файл ( Кол-во скачиваний: 6 )
Присоединённый файл  229f8a4a84b4ebf4385b7aa556f94ee2 96,78 Kb


--------------------
Нотный архив http://libnote.ru скачать ноты бесплатно
PM MAIL   Вверх
infarch
Дата 7.6.2012, 14:30 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 526
Регистрация: 13.3.2009

Репутация: нет
Всего: 1



По запросу "http://www.google.com/search?q=euro+exchange+rate" получил вполне приличный результат.

Присоединённый файл ( Кол-во скачиваний: 8 )
Присоединённый файл  search.txt 160,81 Kb
PM MAIL   Вверх
EcSYZ
Дата 7.6.2012, 15:01 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 79
Регистрация: 21.6.2007

Репутация: нет
Всего: 1



Кривой запрос и как следствие кривой результат - страница с одним полем для ввода запроса.
Конечно же там нету никаких результатов.
Кстати сразу предупрежу - гугл любит частенько предлагать ввести капчу, так что не стоит пытатся его парсить без привязки к сервису по разбору капчей.

https://github.com/ecsyz/WVS/blob/master/lib/WVS/SEP.pm - сусть думаю оттуда можно будет понять.

Это сообщение отредактировал(а) EcSYZ - 7.6.2012, 15:05
PM MAIL WWW   Вверх
burakov
Дата 7.6.2012, 15:44 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 554
Регистрация: 28.7.2006

Репутация: нет
Всего: нет



большое спасибо.

вот этот запрос
http://www.google.com/search?q=euro+exchange+rate
у меня нормально отработал (хоть увидел, что реально все в файле есть).
значит дело в запросе.
антикапчу подключу, спасибо за предупреждение.




--------------------
Нотный архив http://libnote.ru скачать ноты бесплатно
PM MAIL   Вверх
GR0Mi
Дата 5.7.2012, 14:21 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 85
Регистрация: 9.4.2010

Репутация: нет
Всего: нет



хм. у пеня на перле парсер хорошо работает. разве чтокапчу жрет и парсит только 100 страниц гугл больше не выдает нужно запрос менять
PM MAIL   Вверх
Lisssa
Дата 7.8.2012, 16:04 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 41
Регистрация: 27.9.2011

Репутация: нет
Всего: нет



Цитата(GR0Mi @ 5.7.2012,  14:21)
хм. у пеня на перле парсер хорошо работает. разве чтокапчу жрет и парсит только 100 страниц гугл больше не выдает нужно запрос менять

Код

use LWP::UserAgent;
use HTTP::Request::Common;
my $ua = LWP::UserAgent->new;
$res=$ua->request(POST 'http://antigate.com/in.php',
       Content_Type => 'form-data',
       Content      => [ method => 'post',
                         key => 'кодкапчи',
                         file => ["pic.jpg"],
                       ]
);

$res->decoded_content=~/OK\|(.*)/;
$id=$1;
print "id:$id\n";
$res=$ua->get("http://antigate.com/res.php?key=кодкапчи&action=get&id=$id");
while($res->decoded_content=~/CAPCHA_NOT_READY/)
{
    print ".";
    sleep(3);
    $res=$ua->get("http://antigate.com/res.php?key=кодкапчи&action=get&id=$id");
}
$res->decoded_content=~/OK\|(.*)/;
$c=$1;
print $c;

PM MAIL   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Perl: CGI программирование"
korob2001
sharq
  • В этом разделе обсуждаются вопросы относящиеся только к CGI программированию
  • Если ваш вопрос не относится к системному или CGI программированию, задавайте его в общем разделе
  • Если ваш вопрос относится к системному программированию, задавайте его здесь
  • Интерпретатор Perl можно скачать здесь ActiveState, O'REILLY, The source for Perl
  • Справочное руководство "Установка perl-модулей", качать здесь


Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, korob2001, sharq.

 
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Perl: разработка для Web | Следующая тема »


 




[ Время генерации скрипта: 0.0741 ]   [ Использовано запросов: 22 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.