Модераторы: skyboy, MoLeX, Aliance, ksnk
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Запрет посещения для роботов, robots.txt 
:(
    Опции темы
Testernew
Дата 9.2.2014, 13:11 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 96
Регистрация: 12.2.2012
Где: Луганск

Репутация: нет
Всего: нет



Интересует следующий вопрос, достаточно ли запрета в файле robots.txt  вида:

Код

User-agent: *
Disallow:


Судя по логам все равно роботы лезут на сайт, если задача стоит такая что бы оградить ресурс от всех поисковых сайтов/ботов/роботов можно (и целесообразно ли) будет ловить в скрипте по хедерам или Ip и отключать.

Задача оставить на сайте только людей, желательно без введения капч и.т.д
PM   Вверх
ksnk
Дата 9.2.2014, 17:41 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


прохожий
****


Профиль
Группа: Комодератор
Сообщений: 6855
Регистрация: 13.4.2007
Где: СПб

Репутация: 96
Всего: 386



Testernew, задача странная. Сайты, вообще говоря, пишутся и для роботов smile  Без нормального поискового рейтинга, к примеру, никакой разумной монетизации не бывает. Не говоря о то, что поисковый рейтинг - ценность сам по себе.

Про файл robots.txt лучше почитать на yandex и на google / Сам файл имеет смысл для разумных роботов, типа yandex или google. Они сначала считывают этот файл, анализируют его, потом действуют по его правилам. Всякие самодельные боты таким умом не обладают. Банить google и yandex неразумно, проще ограничить их аппетиты с помощью robots.txt

Боты, которые позиционируют себя как поисковые, обычно имеют уникальный User Agent и не меняют его. Так что банить разумно именно по user Agent'у. Ip адреса у ботов разнообразны и меняются. Нужных агентов отлавливать по логам.



--------------------
Человеку свойственно ошибаться, программисту свойственно ошибаться профессионально ! user posted image
PM MAIL WWW Skype   Вверх
Gromdron
Дата 9.2.2014, 22:33 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 6
Регистрация: 4.9.2006

Репутация: 1
Всего: 1



У вас опечаточка.

Вы описали:

Код

User-agent: *
Disallow:


В то время как правильный код будет таким:

Код

User-agent: *
Disallow: /


Есть еще такая штука: Crawl-delay: ***, где вместо *** - количество секунд, через которое робот может вернуться на сайт чтобы продолжить индексацию.

P.S. Роботы все равно будут лезть на сайт, другое будут ли они его индексировать и выдавать.

Этот ответ добавлен с нового Винграда - http://vingrad.com
PM MAIL   Вверх
Testernew
Дата 13.2.2014, 10:42 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 96
Регистрация: 12.2.2012
Где: Луганск

Репутация: нет
Всего: нет



Цитата(ksnk @ 9.2.2014,  17:41)
Testernew, задача странная. Сайты, вообще говоря, пишутся и для роботов smile  Без нормального поискового рейтинга, к примеру, никакой разумной монетизации не бывает. Не говоря о то, что поисковый рейтинг - ценность сам по себе.

Про файл robots.txt лучше почитать на yandex и на google / Сам файл имеет смысл для разумных роботов, типа yandex или google. Они сначала считывают этот файл, анализируют его, потом действуют по его правилам. Всякие самодельные боты таким умом не обладают. Банить google и yandex неразумно, проще ограничить их аппетиты с помощью robots.txt

Боты, которые позиционируют себя как поисковые, обычно имеют уникальный User Agent и не меняют его. Так что банить разумно именно по user Agent'у. Ip адреса у ботов разнообразны и меняются. Нужных агентов отлавливать по логам.

Да.. задача не обычная. но она именно такая, как можно красиво или лучше блокировать по user-agent если в нем к примеру встречается 'bot' ?
PM   Вверх
ksnk
Дата 13.2.2014, 11:42 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


прохожий
****


Профиль
Группа: Комодератор
Сообщений: 6855
Регистрация: 13.4.2007
Где: СПб

Репутация: 96
Всего: 386



И в чем проблема? user-agent находится в $_SERVER['HTTP_USER_AGENT']
проверить, есть в нем слово bot или нет можно регуляркой или strpos'ом.

Обнружив ненужного бота - можно выдавать ему 404 статус и страницу-затычку - "боты геть...".


--------------------
Человеку свойственно ошибаться, программисту свойственно ошибаться профессионально ! user posted image
PM MAIL WWW Skype   Вверх
Testernew
Дата 13.2.2014, 22:50 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 96
Регистрация: 12.2.2012
Где: Луганск

Репутация: нет
Всего: нет



Цитата(ksnk @ 13.2.2014,  11:42)
И в чем проблема? user-agent находится в $_SERVER['HTTP_USER_AGENT']
проверить, есть в нем слово bot или нет можно регуляркой или strpos'ом.

Обнружив ненужного бота - можно выдавать ему 404 статус и страницу-затычку - "боты геть...".

С этим проблем не будет, часто бывают сессии где в user-agent не фигурирует bot или что то подобное.. но whois выдает что этот pool ip принадлежит например компании  google, собственно вопрос: значит ли это на сайт заходит  не bot а сотрудник компании? или есть какой то вне гласный стандарт что боты должны обозначать себя в user-agent словом bot или каким либо интуитивно понятным термином?
PM   Вверх
capitan
Дата 13.2.2014, 23:33 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 602
Регистрация: 27.2.2005
Где: Москва

Репутация: 9
Всего: 13



поиск иногда помогает: http://xdan.ru/How-to-detect-on-PHP-if-a-p...search-bot.html
нужно только найти актуальную базу пауков и допилить функцию.
PM MAIL WWW ICQ   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "PHP"
Aliance
IZ@TOP
skyboy
SamDark
MoLeX

Новичкам:

  • PHP редакторы собираются и обсуждаются здесь
  • Электронные книги по PHP, документацию можно найти здесь
  • Интерпретатор PHP, полную документацию можно скачать на PHP.NET

Важно:

  • Не брезгуйте пользоваться тегами [code=php]КОД[/code] для повышения читабельности текста/кода.
  • Перед созданием новой темы воспользуйтесь поиском и загляните в FAQ
  • Действия модераторов можно обсудить здесь

Внимание:

  • Темы "ищу скрипт", "подскажите скрипт" и т.п. будут переноситься в форум "Web-технологии"
  • Темы с именами: "Срочно", "помогите", "не знаю как делать" будут УДАЛЯТЬСЯ

Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, IZ@TOP, skyboy, SamDark, MoLeX, awers.

 
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | PHP: Общие вопросы | Следующая тема »


 




[ Время генерации скрипта: 0.0692 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.