Модераторы: skyboy, MoLeX, Aliance, ksnk

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Список файлов директорий описанных в robots.txt 
:(
    Опции темы
DimaSiK
Дата 21.1.2007, 02:18 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 390
Регистрация: 20.8.2006

Репутация: нет
Всего: нет



Цитата(mishaSL @ 20.1.2007,  23:53)
Цитата(DimaSiK @  20.1.2007,  03:14 Найти цитируемый пост)
Просто у меня стоит задание написать парсер страниц, которые находятся в директориях закрытых фаликом robots.txt, алгоритм разработал, но вот теперь думаю возможно ли это на самом деле???. 

Суть его работы такова, он находит сайт анализирует его robots.txt, каким-то образом просматривает директории которые описаны как неиндесируемые в robots.txt открывает файлы и парсит с них информацию. 


Странный алгоритм.
Чтобы все работало, предлагаю следующий алгоритм.
1. Анализируешь файл robot.txt
2. Индексируешь весь сайт по гиперссылкам и сохраняешь информацию только тех страниц которые закрыты для индексации в robot.txt.

Проблема может возникнуть только с индексацией по ссылкам, твм главное чтобы твой робот не запутался в ссылках и не индексировал одни и теже страницы по разным ссылкам. И еще надо будет определиться какие ссылки ты будешь индексировать (в смысле только html или еще javascript и возможно flash)

Возможно это самый лучший вариант решения задачи. Большое СПАСИБО!!!


--------------------
Мы не стараемся быть первыми, мы стараемся быть лучшими.

PM MAIL   Вверх
Alex13
Дата 21.1.2007, 09:48 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 280
Регистрация: 30.12.2005
Где: Новосибирск

Репутация: нет
Всего: 1



mishaSL, боюсь, тут может возникнуть проблема с отсутствием ссылок на сайте, ведущих в запрещенные директории. Если это какие-то "секретные" папки, типа админки, ссылка, например покажется только админа, а поисковик ее не увидит. smile


--------------------
Самая страшная ошибка - это ошибка, не имеющая явных причин и конкретных последствий.
Антисоциальный блог.
PM WWW ICQ Jabber   Вверх
Mal Hack
Дата 21.1.2007, 15:42 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Мудрый...
****


Профиль
Группа: Участник Клуба
Сообщений: 9926
Регистрация: 15.2.2004

Репутация: 122
Всего: 261



Если они скрытые, значит так тому и быть.
PM ICQ   Вверх
mishaSL
Дата 21.1.2007, 20:55 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Участник Клуба
Сообщений: 1046
Регистрация: 10.1.2007
Где: Санкт-Петербург

Репутация: 19
Всего: 54




Цитата(Alex13 @  21.1.2007,  09:48 Найти цитируемый пост)
mishaSL, боюсь, тут может возникнуть проблема с отсутствием ссылок на сайте, ведущих в запрещенные директории. Если это какие-то "секретные" папки, типа админки, ссылка, например покажется только админа, а поисковик ее не увидит.


Как правило robots.txt скрывают не те папки или страницы которые не хотят показывать пользователям, а те которые не нужно индексировать. К примеру поиск на сайте (чтобы не было много однотипных страниц в базе поисковика), страницы которые делают редирект на другие сайты и т.д. Адрес системы управления очень мало кто пишет в robots.txt, скорее заприщают мндексацию в метатегах, тем полее закрытые разделы сайта (которые требуют авторизации) вообще не имеет смысл индексировать, т.к. дальше первой страницы с формой для ввода пароля твой робот врядли уйдет.




--------------------
Лучший способ научиться программированию - это посмотреть как это делают другие...
PM MAIL   Вверх
Ответ в темуСоздание новой темы Создание опроса
Правила форума "PHP"
Aliance
IZ@TOP
skyboy
SamDark
MoLeX

Новичкам:

  • PHP редакторы собираются и обсуждаются здесь
  • Электронные книги по PHP, документацию можно найти здесь
  • Интерпретатор PHP, полную документацию можно скачать на PHP.NET

Важно:

  • Не брезгуйте пользоваться тегами [code=php]КОД[/code] для повышения читабельности текста/кода.
  • Перед созданием новой темы воспользуйтесь поиском и загляните в FAQ
  • Действия модераторов можно обсудить здесь

Внимание:

  • Темы "ищу скрипт", "подскажите скрипт" и т.п. будут переноситься в форум "Web-технологии"
  • Темы с именами: "Срочно", "помогите", "не знаю как делать" будут УДАЛЯТЬСЯ

Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, IZ@TOP, skyboy, SamDark, MoLeX, awers.

 
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | PHP: Общие вопросы | Следующая тема »


 




[ Время генерации скрипта: 0.0658 ]   [ Использовано запросов: 22 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.