Модераторы: Aliance, skyboy, MoLeX, ksnk
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Пройтись по всем страницам сайта, С помощью curl и регулярных выражений 
:(
    Опции темы
farrow
Дата 23.4.2008, 19:18 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 18
Регистрация: 3.2.2008

Репутация: нет
Всего: нет



Наверное вопрос может показаться глупым, но не могу взять в толк как пройтись по всем страницам сайта . Страницы сайта заранее не известны, потому, как я полагаю, без регулярок вообще никак. Все, что можно записать в дано этой задачки - ссылка на сайт.

Допустим, сделать вот такую вот регулярку:

Код

http://сайт.com/(.*).html


А какой функцией воспользоваться? В идеале - сохранить все возможные значения в массив. Или это в принципе невозможно? Я здравый человек, понимаю что как-то нужно ограничить (.*), допустим 30 знаков.

Или это вообще все туфта и делать надо по-другому?
PM MAIL   Вверх
Glip
Дата 23.4.2008, 19:38 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 473
Регистрация: 30.12.2006

Репутация: 2
Всего: 18



Код

wget --mirror http://сайт.com/

но это не php.

можно, наверное, получить первую страницу, найти все ссылки ведущие на этот же сайт и дальше уже получать по ним и так далее.


--------------------
user posted image
PM MAIL   Вверх
farrow
Дата 24.4.2008, 19:12 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 18
Регистрация: 3.2.2008

Репутация: нет
Всего: нет



А при помощи php никак?..
PM MAIL   Вверх
Fortop
Дата 24.4.2008, 20:36 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Завсегдатай
Сообщений: 2200
Регистрация: 13.11.2007
Где: Донецк

Репутация: 1
Всего: 42



Цитата(farrow @  23.4.2008,  19:18 Найти цитируемый пост)
А какой функцией воспользоваться? В идеале - сохранить все возможные значения в массив. Или это в принципе невозможно? Я здравый человек, понимаю что как-то нужно ограничить (.*), допустим 30 знаков.

Все возможно. Другой вопрос, зачем это надо?

preg_match_all()
CURL




--------------------
Мир это Я.
Живее всех живых.
PM MAIL   Вверх
Glip
Дата 24.4.2008, 22:47 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 473
Регистрация: 30.12.2006

Репутация: 2
Всего: 18



farrow
попробуйте найти файл sitemap.xml или что-нибудь подобное. их обычно делают для роботов. опять же robots.txt можно посмотреть, но там чаще всего ограничения.
или вариант 2 из моего предидущего поста. других мыслей пока нет.


--------------------
user posted image
PM MAIL   Вверх
americanets
Дата 24.5.2008, 10:24 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Завсегдатай
Сообщений: 1100
Регистрация: 27.9.2006

Репутация: нет
Всего: 12



посмотри на реализацию в w3search, там какраз preg_match_all + curl

Добавлено через 42 секунды
находишь ссылки на странице и переходишь по ним и так далее


--------------------
Пусть популярную музыку слушают те, среди кого она популярна
PM   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | PHP: Сеть | Следующая тема »


 




[ Время генерации скрипта: 0.0705 ]   [ Использовано запросов: 22 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.