![]() |
Модераторы: skyboy, MoLeX, Aliance, ksnk |
![]() ![]() ![]() |
|
DimaSiK |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 390 Регистрация: 20.8.2006 Репутация: нет Всего: нет |
Допустим имеется такое содержимое файла robots.txt:
ser-agent: * Disallow: /photo/ Disallow: /pobeda/ Disallow: /db/auth/ Disallow: /db/comp/items.html Disallow: /cgi-bin/ Disallow: /srch Disallow: /lite каким образом я могу просматреть содержимое закрытых директорий???,используя сокеты, присоединится и запросить содержимое папки или как-то подругому????. Вообще это возможно??? -------------------- Мы не стараемся быть первыми, мы стараемся быть лучшими. |
|||
|
||||
szz |
|
|||
![]() Эксперт ![]() ![]() ![]() Профиль Группа: Завсегдатай Сообщений: 1289 Регистрация: 31.5.2005 Где: Moscow, Jerusalem Репутация: 8 Всего: 33 |
Также как и незащищенные, потому что эти папки - они не защищены, просто указание роботам, чтоб они не индексировали сожержимое этих папок. Добровольно. Можно конечно написать злого робота, который только запрещенные и индексирует
![]() ![]() Кстати, прикольная идея ))) Сделать такой сайт http://antigoogle.com, инвертировать цвета гугла и давать искать исключительно по disallowed ![]() --------------------
|
|||
|
||||
DimaSiK |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 390 Регистрация: 20.8.2006 Репутация: нет Всего: нет |
=). Тогда вывести список всех файлов в дириктории возможно???,используя сокет соединение и метод GET ??
-------------------- Мы не стараемся быть первыми, мы стараемся быть лучшими. |
|||
|
||||
Glip |
|
|||
Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 473 Регистрация: 30.12.2006 Репутация: 7 Всего: 18 |
зависит от настроек www сервера. при правильных - нет
|
|||
|
||||
szz |
|
||||
![]() Эксперт ![]() ![]() ![]() Профиль Группа: Завсегдатай Сообщений: 1289 Регистрация: 31.5.2005 Где: Moscow, Jerusalem Репутация: 8 Всего: 33 |
почему? Disallow не говорит о том, что папка недоступна из браузера. Как раз наоборот - доступна, но вы, роботы, пожалуйста не индексируйте... А если из браузера доступна, догда и из php. --------------------
|
||||
|
|||||
Mal Hack |
|
|||
![]() Мудрый... ![]() ![]() ![]() ![]() Профиль Группа: Участник Клуба Сообщений: 9926 Регистрация: 15.2.2004 Репутация: 122 Всего: 261 |
szz, проссмотреть список файлов на удаленном хосте можно только при Options +MultiViews (или -, не помню уже), и отсутствием DirectoryIndex, при этом, придется пармить html страничку со списком файлов и папок, которую покажет сервер.
В 90% это сделать невозможно. |
|||
|
||||
szz |
|
|||
![]() Эксперт ![]() ![]() ![]() Профиль Группа: Завсегдатай Сообщений: 1289 Регистрация: 31.5.2005 Где: Moscow, Jerusalem Репутация: 8 Всего: 33 |
А, тут клюевая фраза "список файлов"
![]() ![]() --------------------
|
|||
|
||||
DimaSiK |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 390 Регистрация: 20.8.2006 Репутация: нет Всего: нет |
Кто знает каким образом робот-поисковик узнает структуру сайта для индексации страниц. Каким образом он получает список директорий и файлов?
-------------------- Мы не стараемся быть первыми, мы стараемся быть лучшими. |
|||
|
||||
Mal Hack |
|
|||
![]() Мудрый... ![]() ![]() ![]() ![]() Профиль Группа: Участник Клуба Сообщений: 9926 Регистрация: 15.2.2004 Репутация: 122 Всего: 261 |
Индексатор идет по ссылкам, которые есть на гипертекстовых страницах.
|
|||
|
||||
DimaSiK |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 390 Регистрация: 20.8.2006 Репутация: нет Всего: нет |
Просто у меня стоит задание написать парсер страниц, которые находятся в директориях закрытых фаликом robots.txt, алгоритм разработал, но вот теперь думаю возможно ли это на самом деле???.
Суть его работы такова, он находит сайт анализирует его robots.txt, каким-то образом просматривает директории которые описаны как неиндесируемые в robots.txt открывает файлы и парсит с них информацию. Это сообщение отредактировал(а) DimaSiK - 20.1.2007, 03:17 -------------------- Мы не стараемся быть первыми, мы стараемся быть лучшими. |
|||
|
||||
-=Ustas=- |
|
|||
![]() Ustix IT Group ![]() ![]() ![]() ![]() Профиль Группа: Участник Клуба Сообщений: 2222 Регистрация: 21.1.2005 Где: Краснодар Репутация: 32 Всего: 69 |
Тебе же уже написали возможности, в 95% случаев Апач настроен правильно, поэтому листинга файлов ты не получишь. -------------------- В искаженном мире все догмы одинаково произвольны, включая догму о произвольности догм. ----- |
|||
|
||||
DimaSiK |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 390 Регистрация: 20.8.2006 Репутация: нет Всего: нет |
Тогда как индексируются страницы свеженького сайта, о котором еще ничего не известно,на который нет ссылок из других сайтов??. По твоим словам получается что ни как. -------------------- Мы не стараемся быть первыми, мы стараемся быть лучшими. |
|||
|
||||
szz |
|
|||
![]() Эксперт ![]() ![]() ![]() Профиль Группа: Завсегдатай Сообщений: 1289 Регистрация: 31.5.2005 Где: Moscow, Jerusalem Репутация: 8 Всего: 33 |
никак.
Создатель сайта сам заносит свой сайт в поисковики, если хочет. --------------------
|
|||
|
||||
Mal Hack |
|
|||
![]() Мудрый... ![]() ![]() ![]() ![]() Профиль Группа: Участник Клуба Сообщений: 9926 Регистрация: 15.2.2004 Репутация: 122 Всего: 261 |
DimaSiK, до перво звезды, читай до первой ссылки на сайт, он не индексируется.
|
|||
|
||||
mishaSL |
|
|||
![]() Эксперт ![]() ![]() ![]() Профиль Группа: Участник Клуба Сообщений: 1046 Регистрация: 10.1.2007 Где: Санкт-Петербург Репутация: 19 Всего: 54 |
Странный алгоритм. Чтобы все работало, предлагаю следующий алгоритм. 1. Анализируешь файл robot.txt 2. Индексируешь весь сайт по гиперссылкам и сохраняешь информацию только тех страниц которые закрыты для индексации в robot.txt. Проблема может возникнуть только с индексацией по ссылкам, твм главное чтобы твой робот не запутался в ссылках и не индексировал одни и теже страницы по разным ссылкам. И еще надо будет определиться какие ссылки ты будешь индексировать (в смысле только html или еще javascript и возможно flash) -------------------- Лучший способ научиться программированию - это посмотреть как это делают другие... |
|||
|
||||
DimaSiK |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 390 Регистрация: 20.8.2006 Репутация: нет Всего: нет |
Возможно это самый лучший вариант решения задачи. Большое СПАСИБО!!! -------------------- Мы не стараемся быть первыми, мы стараемся быть лучшими. |
|||
|
||||
Alex13 |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 280 Регистрация: 30.12.2005 Где: Новосибирск Репутация: нет Всего: 1 |
mishaSL, боюсь, тут может возникнуть проблема с отсутствием ссылок на сайте, ведущих в запрещенные директории. Если это какие-то "секретные" папки, типа админки, ссылка, например покажется только админа, а поисковик ее не увидит.
![]() -------------------- Самая страшная ошибка - это ошибка, не имеющая явных причин и конкретных последствий. Антисоциальный блог. |
|||
|
||||
Mal Hack |
|
|||
![]() Мудрый... ![]() ![]() ![]() ![]() Профиль Группа: Участник Клуба Сообщений: 9926 Регистрация: 15.2.2004 Репутация: 122 Всего: 261 |
Если они скрытые, значит так тому и быть.
|
|||
|
||||
mishaSL |
|
|||
![]() Эксперт ![]() ![]() ![]() Профиль Группа: Участник Клуба Сообщений: 1046 Регистрация: 10.1.2007 Где: Санкт-Петербург Репутация: 19 Всего: 54 |
Как правило robots.txt скрывают не те папки или страницы которые не хотят показывать пользователям, а те которые не нужно индексировать. К примеру поиск на сайте (чтобы не было много однотипных страниц в базе поисковика), страницы которые делают редирект на другие сайты и т.д. Адрес системы управления очень мало кто пишет в robots.txt, скорее заприщают мндексацию в метатегах, тем полее закрытые разделы сайта (которые требуют авторизации) вообще не имеет смысл индексировать, т.к. дальше первой страницы с формой для ввода пароля твой робот врядли уйдет. -------------------- Лучший способ научиться программированию - это посмотреть как это делают другие... |
|||
|
||||
![]() ![]() ![]() |
Правила форума "PHP" | |
|
Новичкам:
Важно:
Внимание:
Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, IZ@TOP, skyboy, SamDark, MoLeX, awers. |
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей) | |
0 Пользователей: | |
« Предыдущая тема | PHP: Общие вопросы | Следующая тема » |
|
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности Powered by Invision Power Board(R) 1.3 © 2003 IPS, Inc. |