Версия для печати темы
Нажмите сюда для просмотра этой темы в оригинальном формате
Форум программистов > Java: Работа с сетью > Crawler


Автор: Вопрошатель 17.8.2014, 20:52
Хочу попрактиковаться в многопоточном и сетевом программировании. Решил написать свой веб-краулер, но не хватает общей информации. 

Собственно хотелось бы где ни будь почитать о том, с какой частотой принято делать поисковые запросы, чтоб не перегружать просматриваемый сервер? К примеру, я хочу скормить краулеру ссылку на главную страницу сайта, после чего хочу получить все содержимое, которое доступно по ссылкам с главной страницы, потом сделать тоже самое со ссылками на каждой из полученных страниц. Таким образом можно довольно сильно нагрузить сервер, на котором крутится сканируемый сайт. Т.е. надо делать какую-то задержку по времени. Вот только вопрос, какой длительности должна быть эта задержка? 

Также хотелось бы узнать обо всем, что можно объединить под термином "политики вежливости" для веб-краулера?

Powered by Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)