![]() |
Модераторы: skyboy, MoLeX, Aliance, ksnk |
![]() ![]() ![]() |
|
Testernew |
|
|||
Шустрый ![]() Профиль Группа: Участник Сообщений: 96 Регистрация: 12.2.2012 Где: Луганск Репутация: нет Всего: нет |
Интересует следующий вопрос, достаточно ли запрета в файле robots.txt вида:
Судя по логам все равно роботы лезут на сайт, если задача стоит такая что бы оградить ресурс от всех поисковых сайтов/ботов/роботов можно (и целесообразно ли) будет ловить в скрипте по хедерам или Ip и отключать. Задача оставить на сайте только людей, желательно без введения капч и.т.д |
|||
|
||||
ksnk |
|
|||
![]() прохожий ![]() ![]() ![]() ![]() Профиль Группа: Комодератор Сообщений: 6855 Регистрация: 13.4.2007 Где: СПб Репутация: 96 Всего: 386 |
Testernew, задача странная. Сайты, вообще говоря, пишутся и для роботов
![]() Про файл robots.txt лучше почитать на yandex и на google / Сам файл имеет смысл для разумных роботов, типа yandex или google. Они сначала считывают этот файл, анализируют его, потом действуют по его правилам. Всякие самодельные боты таким умом не обладают. Банить google и yandex неразумно, проще ограничить их аппетиты с помощью robots.txt Боты, которые позиционируют себя как поисковые, обычно имеют уникальный User Agent и не меняют его. Так что банить разумно именно по user Agent'у. Ip адреса у ботов разнообразны и меняются. Нужных агентов отлавливать по логам. -------------------- Человеку свойственно ошибаться, программисту свойственно ошибаться профессионально ! ![]() |
|||
|
||||
Gromdron |
|
||||
Новичок Профиль Группа: Участник Сообщений: 6 Регистрация: 4.9.2006 Репутация: 1 Всего: 1 |
У вас опечаточка.
Вы описали:
В то время как правильный код будет таким:
Есть еще такая штука: Crawl-delay: ***, где вместо *** - количество секунд, через которое робот может вернуться на сайт чтобы продолжить индексацию. P.S. Роботы все равно будут лезть на сайт, другое будут ли они его индексировать и выдавать. Этот ответ добавлен с нового Винграда - http://vingrad.com |
||||
|
|||||
Testernew |
|
|||
Шустрый ![]() Профиль Группа: Участник Сообщений: 96 Регистрация: 12.2.2012 Где: Луганск Репутация: нет Всего: нет |
Да.. задача не обычная. но она именно такая, как можно красиво или лучше блокировать по user-agent если в нем к примеру встречается 'bot' ? |
|||
|
||||
ksnk |
|
|||
![]() прохожий ![]() ![]() ![]() ![]() Профиль Группа: Комодератор Сообщений: 6855 Регистрация: 13.4.2007 Где: СПб Репутация: 96 Всего: 386 |
И в чем проблема? user-agent находится в $_SERVER['HTTP_USER_AGENT']
проверить, есть в нем слово bot или нет можно регуляркой или strpos'ом. Обнружив ненужного бота - можно выдавать ему 404 статус и страницу-затычку - "боты геть...". -------------------- Человеку свойственно ошибаться, программисту свойственно ошибаться профессионально ! ![]() |
|||
|
||||
Testernew |
|
|||
Шустрый ![]() Профиль Группа: Участник Сообщений: 96 Регистрация: 12.2.2012 Где: Луганск Репутация: нет Всего: нет |
С этим проблем не будет, часто бывают сессии где в user-agent не фигурирует bot или что то подобное.. но whois выдает что этот pool ip принадлежит например компании google, собственно вопрос: значит ли это на сайт заходит не bot а сотрудник компании? или есть какой то вне гласный стандарт что боты должны обозначать себя в user-agent словом bot или каким либо интуитивно понятным термином? |
|||
|
||||
capitan |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 602 Регистрация: 27.2.2005 Где: Москва Репутация: 9 Всего: 13 |
поиск иногда помогает: http://xdan.ru/How-to-detect-on-PHP-if-a-p...search-bot.html
нужно только найти актуальную базу пауков и допилить функцию. |
|||
|
||||
![]() ![]() ![]() |
Правила форума "PHP" | |
|
Новичкам:
Важно:
Внимание:
Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, IZ@TOP, skyboy, SamDark, MoLeX, awers. |
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей) | |
0 Пользователей: | |
« Предыдущая тема | PHP: Общие вопросы | Следующая тема » |
|
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности Powered by Invision Power Board(R) 1.3 © 2003 IPS, Inc. |