Версия для печати темы
Нажмите сюда для просмотра этой темы в оригинальном формате |
Форум программистов > Java: Работа с сетью > Crawler |
Автор: Вопрошатель 17.8.2014, 20:52 |
Хочу попрактиковаться в многопоточном и сетевом программировании. Решил написать свой веб-краулер, но не хватает общей информации. Собственно хотелось бы где ни будь почитать о том, с какой частотой принято делать поисковые запросы, чтоб не перегружать просматриваемый сервер? К примеру, я хочу скормить краулеру ссылку на главную страницу сайта, после чего хочу получить все содержимое, которое доступно по ссылкам с главной страницы, потом сделать тоже самое со ссылками на каждой из полученных страниц. Таким образом можно довольно сильно нагрузить сервер, на котором крутится сканируемый сайт. Т.е. надо делать какую-то задержку по времени. Вот только вопрос, какой длительности должна быть эта задержка? Также хотелось бы узнать обо всем, что можно объединить под термином "политики вежливости" для веб-краулера? |