Модераторы: skyboy, MoLeX, Aliance, ksnk
  

Поиск:

Закрытая темаСоздание новой темы Создание опроса
> Парсер wordstat.yandex.ru, Нужно написать парсер wordstat.yandex.ru 
V
    Опции темы
Elfer
Дата 1.3.2012, 14:32 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 76
Регистрация: 31.8.2008

Репутация: -1
Всего: -1



Второй день воюю с парсером wordstat.yandex.ru. При обращении к страничке каждый раз вылазит капча. Подключил уже и антикапчу и посылаю post данные с ответом капчи и всё равно капча и капча. Куки посылаю тоже. Может есть у кого кусок кода, где идет обращение к яндекс.вордстат и капча не вылазит? Как добиться, чтобы капча не вылазила? Обрыл весь инет, везде старые примеры, которые на данный момент не работают.
PM MAIL WWW ICQ   Вверх
krundetz
Дата 2.3.2012, 11:39 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Вечный странник
***


Профиль
Группа: Завсегдатай
Сообщений: 1400
Регистрация: 14.6.2007
Где: НН(Сормово)

Репутация: 20
Всего: 69



Elfer, какие кукисы отсылал?

Вообще нужно, чтобы для этого кукиса была введена правильная капча. То есть на стороне сервера должна быть однозначная ассоциация что капча пройдена.

Это сообщение отредактировал(а) krundetz - 2.3.2012, 11:40


--------------------
!цензоры - Хранитель стратегической жидкости
Группа ТГВ
Группа Нижний Новгород
user posted image
PM MAIL   Вверх
Elfer
Дата 2.3.2012, 16:02 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 76
Регистрация: 31.8.2008

Репутация: -1
Всего: -1



куки 2 отсылаю:
1) yandexuid
2) fuid01
Значения куки беру из браузера Google Chrome, когда я посещал wordstat.yandex.ru, куки прописались с браузере.
Но передаю я куку или нет через скрипт, в header не приходит никакой информации об установки куки. В файл кука тоже не прописывается.
Код

curl_setopt($this->ch, CURLOPT_COOKIEJAR, $this->cookie_file);

Капча вводится правильная, проверял каждую капчу. Отправлял через CURL POST-данные капчи и всех input полей. В итоге загружается страничка такая же, с просьбой ввести капчу, никакие куки не приходят. Вроде в этом деле профи, уже столько всяких парсеров написал, но тут просто погряз в трясине. Никак не могу это преодолеть.
PM MAIL WWW ICQ   Вверх
krundetz
Дата 3.3.2012, 10:16 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Вечный странник
***


Профиль
Группа: Завсегдатай
Сообщений: 1400
Регистрация: 14.6.2007
Где: НН(Сормово)

Репутация: 20
Всего: 69



Elfer, а заголовки какие отправляешь?

Когда парсил выдачу, специально все что на странице было(картинки, скрипты, стили) тоже скриптом запрашивал.


--------------------
!цензоры - Хранитель стратегической жидкости
Группа ТГВ
Группа Нижний Новгород
user posted image
PM MAIL   Вверх
Elfer
Дата 3.3.2012, 10:47 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 76
Регистрация: 31.8.2008

Репутация: -1
Всего: -1



Неа, только страницу и капчу. Думаете в этом дело, что не загружаю остальные файлы?
PM MAIL WWW ICQ   Вверх
krundetz
Дата 4.3.2012, 13:43 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Вечный странник
***


Профиль
Группа: Завсегдатай
Сообщений: 1400
Регистрация: 14.6.2007
Где: НН(Сормово)

Репутация: 20
Всего: 69



Цитата(Elfer @  3.3.2012,  10:47 Найти цитируемый пост)
Думаете в этом дело, что не загружаю остальные файлы? 

Возможно. Там тоже куча куков выдается, возможны зависимости. Загружать их не обязательно, достаточно запросить заголовки (так сказать симитировать кеш).

С капчей тоже не все просто, урл меняется иногда, точнее домен, а при запросе каптча скачивается и с того и с другого. Также капча не прямая, а с ридиректом, если ничего не путаю.

Elfer, как проверялся отправляемый запрос?

про заголовки ничего не ответил, также интересно как реализована поддержка сессии?

Это сообщение отредактировал(а) krundetz - 4.3.2012, 13:44


--------------------
!цензоры - Хранитель стратегической жидкости
Группа ТГВ
Группа Нижний Новгород
user posted image
PM MAIL   Вверх
Elfer
Дата 5.3.2012, 15:49 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 76
Регистрация: 31.8.2008

Репутация: -1
Всего: -1



Заголовки через CURLOPT_HTTPHEADER, оказывается вообще не отправлялись. Добавил их. Посмотрю что измениться.
Про капчу я так и не понял, что вы хотели сказать. Я загружаю капчу по абсолютному пути. Там не относительный путь.
Сессия с самого начала скрипта запускается функцией session_start().

Это сообщение отредактировал(а) Elfer - 5.3.2012, 15:51
PM MAIL WWW ICQ   Вверх
Elfer
Дата 5.3.2012, 16:33 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 76
Регистрация: 31.8.2008

Репутация: -1
Всего: -1



Yes! Добился своего. В html-код оказывается фрейм был, с адресом http://kiks.yandex.ru/su/. Когда его загружаешь, устанавливаются куки. Всё, задача решена!
PM MAIL WWW ICQ   Вверх
  
Закрытая темаСоздание новой темы Создание опроса
Правила форума "PHP"
Aliance
IZ@TOP
skyboy
SamDark
MoLeX

Новичкам:

  • PHP редакторы собираются и обсуждаются здесь
  • Электронные книги по PHP, документацию можно найти здесь
  • Интерпретатор PHP, полную документацию можно скачать на PHP.NET

Важно:

  • Не брезгуйте пользоваться тегами [code=php]КОД[/code] для повышения читабельности текста/кода.
  • Перед созданием новой темы воспользуйтесь поиском и загляните в FAQ
  • Действия модераторов можно обсудить здесь

Внимание:

  • Темы "ищу скрипт", "подскажите скрипт" и т.п. будут переноситься в форум "Web-технологии"
  • Темы с именами: "Срочно", "помогите", "не знаю как делать" будут УДАЛЯТЬСЯ

Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, IZ@TOP, skyboy, SamDark, MoLeX, awers.

 
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | PHP: Общие вопросы | Следующая тема »


 




[ Время генерации скрипта: 0.1095 ]   [ Использовано запросов: 22 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.