Модераторы: LSD, AntonSaburov
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Выбор высокоуровневой библиотеки для web-spider. хочу свой качальщик веб-сайтов.  
:(
    Опции темы
Alexk553
Дата 19.3.2012, 02:40 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 43
Регистрация: 8.11.2009

Репутация: нет
Всего: нет



Собственно, хочу написать свой аналог таких программ, как Teleport Pro, Offline Explorer Enterprise который заточен под мои нужды. 
требуется библиотека, которая способна собирать URL из HTML с процессированием Javascript, с поддержкой авторизации, желательно и поддержка Flash.

Иными словами апи к браузеру. 
Рассматривал варианты:
Firefox API. Gecko на плюсах, то есть свой код надо писать на с++, что не очень хочется. Подключение же к джава коду довольно громоздко и я толком не разобрался , как это можно сделать.

http://lobobrowser.org/ :
три года назад прекращены обновления.

http://htmlunit.sourceforge.net/
показалочь тяжеловесным, но если у кого-то есть опыт работы, то мне было бы интересно.


типичная задача такая. Есть сайт с галереями картинок. Нужно скачать картинки, и переименовать их в соответствии с подписями к ним, правильно распихать по каталогам, возможно отдельно сохранить тексты с описаниями. Или , например, скачать все картинки всех друзей или сообщества вконтакте, правильно из назвав, правильно рассортировав их по каталогам. И тому подобные применения. алоритм простой, как доска: вручную задаются этапы обработки регулярками, задаётся как, к какой последовательности что собирать. Для каждого сайта свой миниалгоритм. ГУИ не нужно.

С нуля не хочется писать.
PM MAIL   Вверх
LSD
Дата 19.3.2012, 15:18 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Leprechaun Software Developer
****


Профиль
Группа: Модератор
Сообщений: 15718
Регистрация: 24.3.2004
Где: Dublin

Репутация: 19
Всего: 538



Посмотри Open Source Crawlers.


--------------------
Disclaimer: this post contains explicit depictions of personal opinion. So, if it sounds sarcastic, don't take it seriously. If it sounds dangerous, do not try this at home or at all. And if it offends you, just don't read it.
PM MAIL WWW   Вверх
Temdegon
Дата 12.4.2012, 01:37 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 429
Регистрация: 11.10.2008
Где: Minsk

Репутация: нет
Всего: 9



Htmlunit подходит для 80% случаев. Т.е. на странице корректно отработает JavaScript и Ajax, и дальше делать можно все что хочешь. Но несколько раз сталкивался с ситуацией, когда этот самый JavaScript где-то валится, и нифига не работает. Как-то повлиять на ситуацию возможности пратически нет. Ибо разобраться в чужом упакованом JS-коде...бррр, лучше даже не пытаться.
По моему опыту для этих целей идеально подходит Selenium.
API проще некуда http://code.google.com/p/selenium/wiki/GettingStarted , даже ребенок разберется, как авторизоваться вконтактике с его помощью.
В качестве движка он может использовать все тот же Htmlunit, тогда ему не нужен гуй. Либо, для тех самых 20% случаев, когда htmlunit почему-то не работает, можно подключить его к реальному браузеру, и тут уж сайт никуда не денется.
Лично я всегда использовал селениум именно в качестве java-либы. Но, как я понимаю, это готовый самодостаточный инструмент. там есть спец IDE и плагин к браузеру, позволяющие автоматизировать операции в бразуере кликая мышью или с помощью скриптового язычка. Так что возможно ничего и писать не нужно, просто разобраться как им пользоваться.
P.S.> Регулярки для парсинга html это прошлый век. HTMLUnit и Selenium поддерживают XPath и кучу всяких других возможностей поиска элементов страницы. Даже париться не надо: запускаешь FireBug, тыкаешь нужный div или там table, FB говорит тебе XPath к нему, вставляешь выражение в свой код и потрошишь его дальше как хочешь. Быстро, просто и надежно.
PM MAIL   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Java"
LSD   AntonSaburov
powerOn   tux
  • Прежде, чем задать вопрос, прочтите это!
  • Книги по Java собираются здесь.
  • Документация и ресурсы по Java находятся здесь.
  • Используйте теги [code=java][/code] для подсветки кода. Используйтe чекбокс "транслит", если у Вас нет русских шрифтов.
  • Помечайте свой вопрос как решённый, если на него получен ответ. Ссылка "Пометить как решённый" находится над первым постом.
  • Действия модераторов можно обсудить здесь.
  • FAQ раздела лежит здесь.

Если Вам помогли, и атмосфера форума Вам понравилась, то заходите к нам чаще! С уважением, LSD, AntonSaburov, powerOn, tux.

 
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Java: Работа с сетью | Следующая тема »


 




[ Время генерации скрипта: 0.0669 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.