Модераторы: skyboy, MoLeX, Aliance, ksnk

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Список файлов директорий описанных в robots.txt 
:(
    Опции темы
DimaSiK
Дата 19.1.2007, 08:52 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 390
Регистрация: 20.8.2006

Репутация: нет
Всего: нет



Допустим имеется такое содержимое файла robots.txt:

ser-agent: *
Disallow: /photo/
Disallow: /pobeda/
Disallow: /db/auth/
Disallow: /db/comp/items.html
Disallow: /cgi-bin/
Disallow: /srch
Disallow: /lite

каким образом я могу просматреть содержимое закрытых директорий???,используя сокеты, присоединится и запросить содержимое папки или как-то подругому????. Вообще это возможно???


--------------------
Мы не стараемся быть первыми, мы стараемся быть лучшими.

PM MAIL   Вверх
szz
Дата 19.1.2007, 08:58 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Завсегдатай
Сообщений: 1289
Регистрация: 31.5.2005
Где: Moscow, Jerusalem

Репутация: 8
Всего: 33



Также как и незащищенные, потому что эти папки - они не защищены, просто указание роботам, чтоб они не индексировали сожержимое этих папок. Добровольно. Можно конечно написать злого робота, который только запрещенные и индексирует smile Эдакого антипода поисковикам smile
  Кстати, прикольная идея )))  Сделать такой сайт http://antigoogle.com, инвертировать цвета гугла и давать искать исключительно по disallowed smile


--------------------
PM   Вверх
DimaSiK
Дата 19.1.2007, 09:02 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 390
Регистрация: 20.8.2006

Репутация: нет
Всего: нет



=). Тогда вывести список всех файлов в дириктории возможно???,используя сокет соединение и метод GET ??


--------------------
Мы не стараемся быть первыми, мы стараемся быть лучшими.

PM MAIL   Вверх
Glip
Дата 19.1.2007, 10:19 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 473
Регистрация: 30.12.2006

Репутация: 7
Всего: 18



зависит от настроек www сервера. при правильных - нет


--------------------
user posted image
PM MAIL   Вверх
szz
Дата 19.1.2007, 10:21 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Завсегдатай
Сообщений: 1289
Регистрация: 31.5.2005
Где: Moscow, Jerusalem

Репутация: 8
Всего: 33



Цитата
при правильных - нет

  почему? Disallow не говорит о том, что папка недоступна из браузера. Как раз наоборот - доступна, но вы, роботы, пожалуйста не индексируйте... 
  А если из браузера доступна, догда и из php.


--------------------
PM   Вверх
Mal Hack
Дата 19.1.2007, 15:22 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Мудрый...
****


Профиль
Группа: Участник Клуба
Сообщений: 9926
Регистрация: 15.2.2004

Репутация: 122
Всего: 261



szz, проссмотреть список файлов на удаленном хосте можно только при Options +MultiViews (или -, не помню уже), и отсутствием DirectoryIndex, при этом, придется пармить html страничку со списком файлов и папок, которую покажет сервер.

В 90% это сделать невозможно.
PM ICQ   Вверх
szz
Дата 19.1.2007, 15:25 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Завсегдатай
Сообщений: 1289
Регистрация: 31.5.2005
Где: Moscow, Jerusalem

Репутация: 8
Всего: 33



А, тут клюевая фраза "список файлов" smile Тогда беру свои слова обратно  Прошу прощения за то что зря обнадежил  smile 


--------------------
PM   Вверх
DimaSiK
Дата 20.1.2007, 01:39 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 390
Регистрация: 20.8.2006

Репутация: нет
Всего: нет



Кто знает каким образом робот-поисковик узнает структуру сайта  для индексации страниц. Каким образом он получает список директорий и файлов?   


--------------------
Мы не стараемся быть первыми, мы стараемся быть лучшими.

PM MAIL   Вверх
Mal Hack
Дата 20.1.2007, 01:53 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Мудрый...
****


Профиль
Группа: Участник Клуба
Сообщений: 9926
Регистрация: 15.2.2004

Репутация: 122
Всего: 261



Индексатор идет по ссылкам, которые есть на гипертекстовых страницах.
PM ICQ   Вверх
DimaSiK
Дата 20.1.2007, 03:14 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 390
Регистрация: 20.8.2006

Репутация: нет
Всего: нет



Просто у меня стоит задание написать парсер страниц, которые находятся в директориях закрытых фаликом robots.txt, алгоритм разработал, но вот теперь думаю возможно ли это на самом деле???. 

Суть его работы такова, он находит сайт анализирует его robots.txt, каким-то образом просматривает директории которые описаны как неиндесируемые в robots.txt открывает файлы и парсит с них информацию. 

Это сообщение отредактировал(а) DimaSiK - 20.1.2007, 03:17


--------------------
Мы не стараемся быть первыми, мы стараемся быть лучшими.

PM MAIL   Вверх
-=Ustas=-
Дата 20.1.2007, 11:53 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Ustix IT Group
****


Профиль
Группа: Участник Клуба
Сообщений: 2222
Регистрация: 21.1.2005
Где: Краснодар

Репутация: 32
Всего: 69



Цитата(DimaSiK @  20.1.2007,  03:14 Найти цитируемый пост)
каким-то образом просматривает директории

Тебе же уже написали возможности, в  95% случаев Апач настроен правильно, поэтому листинга файлов ты не получишь.


--------------------
В искаженном мире все догмы одинаково произвольны, включая догму о произвольности догм.
-----
PM WWW ICQ Skype   Вверх
DimaSiK
Дата 20.1.2007, 12:16 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 390
Регистрация: 20.8.2006

Репутация: нет
Всего: нет



Цитата(Mal Hack @ 20.1.2007,  01:53)
Индексатор идет по ссылкам, которые есть на гипертекстовых страницах.

Тогда как индексируются страницы свеженького сайта, о котором еще ничего не известно,на который нет ссылок из других сайтов??. По твоим словам получается что ни как.


--------------------
Мы не стараемся быть первыми, мы стараемся быть лучшими.

PM MAIL   Вверх
szz
Дата 20.1.2007, 12:19 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Завсегдатай
Сообщений: 1289
Регистрация: 31.5.2005
Где: Moscow, Jerusalem

Репутация: 8
Всего: 33



никак.
   Создатель сайта сам заносит свой сайт в поисковики, если хочет.


--------------------
PM   Вверх
Mal Hack
Дата 20.1.2007, 14:34 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Мудрый...
****


Профиль
Группа: Участник Клуба
Сообщений: 9926
Регистрация: 15.2.2004

Репутация: 122
Всего: 261



DimaSiK, до перво звезды, читай до первой ссылки на сайт, он не индексируется.
PM ICQ   Вверх
mishaSL
Дата 20.1.2007, 23:53 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Участник Клуба
Сообщений: 1046
Регистрация: 10.1.2007
Где: Санкт-Петербург

Репутация: 19
Всего: 54



Цитата(DimaSiK @  20.1.2007,  03:14 Найти цитируемый пост)
Просто у меня стоит задание написать парсер страниц, которые находятся в директориях закрытых фаликом robots.txt, алгоритм разработал, но вот теперь думаю возможно ли это на самом деле???. 

Суть его работы такова, он находит сайт анализирует его robots.txt, каким-то образом просматривает директории которые описаны как неиндесируемые в robots.txt открывает файлы и парсит с них информацию. 


Странный алгоритм.
Чтобы все работало, предлагаю следующий алгоритм.
1. Анализируешь файл robot.txt
2. Индексируешь весь сайт по гиперссылкам и сохраняешь информацию только тех страниц которые закрыты для индексации в robot.txt.

Проблема может возникнуть только с индексацией по ссылкам, твм главное чтобы твой робот не запутался в ссылках и не индексировал одни и теже страницы по разным ссылкам. И еще надо будет определиться какие ссылки ты будешь индексировать (в смысле только html или еще javascript и возможно flash)



--------------------
Лучший способ научиться программированию - это посмотреть как это делают другие...
PM MAIL   Вверх
Ответ в темуСоздание новой темы Создание опроса
Правила форума "PHP"
Aliance
IZ@TOP
skyboy
SamDark
MoLeX

Новичкам:

  • PHP редакторы собираются и обсуждаются здесь
  • Электронные книги по PHP, документацию можно найти здесь
  • Интерпретатор PHP, полную документацию можно скачать на PHP.NET

Важно:

  • Не брезгуйте пользоваться тегами [code=php]КОД[/code] для повышения читабельности текста/кода.
  • Перед созданием новой темы воспользуйтесь поиском и загляните в FAQ
  • Действия модераторов можно обсудить здесь

Внимание:

  • Темы "ищу скрипт", "подскажите скрипт" и т.п. будут переноситься в форум "Web-технологии"
  • Темы с именами: "Срочно", "помогите", "не знаю как делать" будут УДАЛЯТЬСЯ

Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, IZ@TOP, skyboy, SamDark, MoLeX, awers.

 
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | PHP: Общие вопросы | Следующая тема »


 




[ Время генерации скрипта: 0.1395 ]   [ Использовано запросов: 22 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.