![]() |
Модераторы: korob2001, ginnie |
![]() ![]() ![]() |
|
Гость_Alex |
|
|||
Unregistered |
Привет всем!
У меня тут возник вопрос. Дело в том, что при попытке получить гиперссылки из страницы-ответа Google, вместо ожидаемых "нормальных" гиперссылок ну типа там: www.some.com/zzz.htm, я получил ссылки вроде http://66.102.9.104/search?q=cache:hevADNK...%BD%D1%82&hl=uk ![]() получал я ети ссылки так:
Подскажите пожалуйста, нет ли возможности получить "нормальние" ссылки из того же Google'овского документа и как ето лучше сделать? Заранее благодарен. |
|||
|
||||
sergejzr |
|
|||
![]() Un salsero ![]() Профиль Группа: Админ Сообщений: 13285 Регистрация: 10.2.2004 Где: Германия г .Ганновер Репутация: нет Всего: 360 |
Не думаю, что это легально....
|
|||
|
||||
Гость_Alex |
|
|||
Unregistered |
А что тут может быть нелегального? Мне кажется, так работают все метапоисковые системы, и парсят они ответы не только Google.
|
|||
|
||||
sergejzr |
|
|||
![]() Un salsero ![]() Профиль Группа: Админ Сообщений: 13285 Регистрация: 10.2.2004 Где: Германия г .Ганновер Репутация: нет Всего: 360 |
Насколько я знаю, для того чтобы использовать гуглевские результаты надо к разработчикам сперва обращаться... Посмотрим, что люди скажут..
|
|||
|
||||
Chuck |
|
|||
![]() Сушня ![]() ![]() Профиль Группа: Эксперт Сообщений: 442 Регистрация: 12.12.2003 Где: Узбекистан, Ташке нт Репутация: нет Всего: 9 |
Думаю, через месять парсинга, они просто забанят твой IP
|
|||
|
||||
Anarki |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 326 Регистрация: 14.3.2005 Репутация: 1 Всего: 11 |
Вроде есть у них специальная система, они выдают какие-то idшники, ты формируешь запрос, тебе выдаётся результат в удобном виде, раньше эта услуга была бесплатной вроде. За дополнительной информацией в гугл.
|
|||
|
||||
aleksnn |
|
|||
Новичок Профиль Группа: Участник Сообщений: 32 Регистрация: 27.4.2005 Репутация: 2 Всего: 2 |
Убери " поставь в конце >
Где-то так. Или сюда http://forum.vingrad.ru/index.php?showtopic=27451 для кого писал? ![]() |
|||
|
||||
Гость_Дима |
|
|||
Unregistered |
Google's API Google сделал API для доступа к результатам поиска . Если в двух словах, то это легальная возможность задавать до 1000 автоматических запросов в день через их API, и получать данные в структурированном виде.
|
|||
|
||||
Гость_Дима |
|
|||
Unregistered |
еще ссылки http://rene.com.ru/razdel21/x2289.htm на Google Api
пли если вручную парсить Гуглю: if ($this->name == "google" ) { preg_match_all('/href=(\'|\")http:\/\/(\S*)(\"|\')/', $response, $page_links, PREG_PATTERN_ORDER); // î÷èùàåì îò âñÿêîãî õëàìà foreach( $page_links[2] as $page_link ){ if ( !preg_match("/(google|q=cache:|q=related:)/i", $page_link) ){ // çàïèñûâàåì $this->ret_links = array_merge($this->ret_links, $page_link); } } } |
|||
|
||||
DeadSoul |
|
|||
Эксперт ![]() ![]() ![]() Профиль Группа: Участник Сообщений: 1217 Регистрация: 25.9.2005 Где: Москва Репутация: нет Всего: 11 |
Гость_Alex, гугл дает не прямые ссылки, а что-то воде www.google.com\redirect?парам-пам. Это делается для более точного определение "того что ты ищешь и где в итоге ты это нашел"
-------------------- Если Вы получили ответ на Ваш вопрос, то нажмите на "Вопрос решен". Бьем спамеров их же оружием. Пусть весь спам сыпется им [email protected] |
|||
|
||||
ochnev |
|
|||
Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 253 Регистрация: 27.3.2006 Репутация: нет Всего: нет |
"Легальный" способ парсить выдачу Google - это через Google API. Там надо где-то регистриться и получать ID, который через этот API показывать.
Метапоисковые системы только так и работают, иначе их бы всех быстро забанили. Можно парсить и "нелегально". Для этого надо делать random паузу между запросами к страницам (2-8 секунд) и обязательно делать паузу не менее минуты (или пол-минуты - не помню) между десятками страниц. Может быть, там что-то поменялось с тех пор, но у меня не было такой проблемы, что вместо ожидаемых "нормальных" гиперссылок было что-то левое. Это сообщение отредактировал(а) ochnev - 4.7.2007, 02:21 |
|||
|
||||
Zukoff |
|
|||
Новичок Профиль Группа: Участник Сообщений: 11 Регистрация: 25.6.2006 Репутация: нет Всего: нет |
HTTP::Parse && URI::URL
а регекспами парсят урлы и особенно хтмл только... отчаянные |
|||
|
||||
sharq |
|
|||
![]() Perl Liker ![]() ![]() Профиль Группа: Участник Сообщений: 841 Регистрация: 13.12.2004 Где: Ростов-на-Дону Репутация: 23 Всего: 28 |
Zukoff,
вот это ты пошутил ![]() те, кто знает в них толк и не использует Perl как PHP. ![]() На самом деле, если не знаешь рег.эксп.ы, то лучше в них разобраться, т.к. без них никуда! Использовать вспомогательные модули - это уже последнее дело. Хотя дело каждого - использовать готовое или написать самому! ![]() -------------------- [color=gray]There's More Than One Way To Do It[/color] |
|||
|
||||
![]() ![]() ![]() |
Правила форума "Perl" | |
|
Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, korob2001, sharq. |
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей) | |
0 Пользователей: | |
« Предыдущая тема | Perl: Общие вопросы | Следующая тема » |
|
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности Powered by Invision Power Board(R) 1.3 © 2003 IPS, Inc. |