![]() |
Модераторы: Aliance, skyboy, MoLeX, ksnk |
![]() ![]() ![]() |
|
barcelona |
|
|||
Бывалый ![]() Профиль Группа: Участник Сообщений: 203 Регистрация: 21.4.2007 Репутация: нет Всего: нет |
Здравствуйте!
Пытаюсь получить страницу google для последующего парсинга.
На локальной машине код работает. На рабочем сервере "302 Moved The document has moved here" и далее по ссылке "Мы зарегистрировали подозрительный трафик, исходящий из вашей сети. С помощью этой страницы мы сможем определить, что запросы отправляете именно вы, а не робот.". Как это обойти? |
|||
|
||||
barcelona |
|
|||
Бывалый ![]() Профиль Группа: Участник Сообщений: 203 Регистрация: 21.4.2007 Репутация: нет Всего: нет |
Как я понимаю, даже нахождение решения не поможет, потому что Goggle шифрует страницу результатов поиска, да так, что оттуда ничего изъять невозможно. Остаются легальные средства: библиотеки Google. Я зарегистрировался, смотрю API - Custom Search API. Ограничение на число запросов - 100 в день, но хоть что-то. Да вот незадача: результаты, получаемые мною от этой фичи с реальными не имеют вообще ничего общего. Много статей в интернете на тему Google AJAX Search, но на официальном сайте Google вообще нет упоминаний об этом. Прикрыли? Неужели выдачу Google ВОООБЩЕ никак нельзя получить?
|
|||
|
||||
Fortop |
|
|||
![]() Эксперт ![]() ![]() ![]() ![]() Профиль Группа: Завсегдатай Сообщений: 2200 Регистрация: 13.11.2007 Где: Донецк Репутация: 1 Всего: 42 |
эмулируйте браузер.
ну и прокси не забывайте. -------------------- Мир это Я. Живее всех живых. |
|||
|
||||
barcelona |
|
|||
Бывалый ![]() Профиль Группа: Участник Сообщений: 203 Регистрация: 21.4.2007 Репутация: нет Всего: нет |
Пытался отправлять заголовок CURLOPT_USERAGENT - получаю в лучшем случае главную страницу. Про прокси: как его использовать непонятно, нашёл в интернете работающий прокси, задал CURLOPT_PROXY - не помогло. Можно более детальные инструкции? Где добыть работающий прокси? |
|||
|
||||
barcelona |
|
|||
Бывалый ![]() Профиль Группа: Участник Сообщений: 203 Регистрация: 21.4.2007 Репутация: нет Всего: нет |
Достал работающий прокси. Не помогло.
AJAX API Google выдаёт только 64 результата/ Нашёл вот этот класс http://www.samay.info/googlescraper/ на сервере разраюотчика работает. На моём нет. Я как понимаю, тёмный лес. За неделю излазил весь интернет, решений нет, одна вопросы. |
|||
|
||||
Fortop |
|
|||
![]() Эксперт ![]() ![]() ![]() ![]() Профиль Группа: Завсегдатай Сообщений: 2200 Регистрация: 13.11.2007 Где: Донецк Репутация: 1 Всего: 42 |
Поставьте себе Fiddler2
Просмотрите что уходит гуглу при вашем поисковом запросе и пытайтесь воспроизвести это поведение. По другому - никак. -------------------- Мир это Я. Живее всех живых. |
|||
|
||||
barcelona |
|
|||
Бывалый ![]() Профиль Группа: Участник Сообщений: 203 Регистрация: 21.4.2007 Репутация: нет Всего: нет |
Поставил Fiddler2, отправляю точно такие же заголовки, всё равно получаю капчу в ответ.
Ладно, пусть будет капча. Но тут всплыла другая сложность: при попытке отправить данные этой капчи (читай, всей формы с капчой) я получаю ещё одну форму с капчой. Гогл блочит мою капчу из-за того, что разные соединения при получении капчи и при отправке результата (как я понимаю). Можно ли сделать так, чтобы форма с капчой отправлялась гоглом и мною отправлялся ответ пользователя в рамках одного curl-соединения? |
|||
|
||||
Fortop |
|
|||
![]() Эксперт ![]() ![]() ![]() ![]() Профиль Группа: Завсегдатай Сообщений: 2200 Регистрация: 13.11.2007 Где: Донецк Репутация: 1 Всего: 42 |
Поищите все же нормальный прокси
![]() -------------------- Мир это Я. Живее всех живых. |
|||
|
||||
barcelona |
|
|||
Бывалый ![]() Профиль Группа: Участник Сообщений: 203 Регистрация: 21.4.2007 Репутация: нет Всего: нет |
Когда я пытаюсь использовать прокси, гогл мне выкидывает:
ERROR Cache Access Denied |
|||
|
||||
![]() ![]() ![]() |
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей) | |
0 Пользователей: | |
« Предыдущая тема | PHP: Сеть | Следующая тема » |
|
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности Powered by Invision Power Board(R) 1.3 © 2003 IPS, Inc. |