Модераторы: Daevaorn
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> url в html, вытащить все ссылки 
:(
    Опции темы
vandaler
Дата 10.4.2012, 01:04 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 34
Регистрация: 5.11.2009

Репутация: нет
Всего: нет



Нужно вытащить из html все урлы по типу того, как это делает lynx -dump URL (пишу в линуксе), но lynx не подходит, так как нужно вытащить не просто ссылки на другие страницы, а те урлы, которые нужны для отображения, типа ссылки на картинки, скрипты. Как это можно сделать?
PM MAIL   Вверх
volatile
Дата 10.4.2012, 01:37 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Завсегдатай
Сообщений: 2107
Регистрация: 7.1.2011

Репутация: 37
Всего: 85



Вероятно нужно смотреть в сторону регэкспов... 
PM MAIL   Вверх
borisbn
Дата 10.4.2012, 06:47 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Завсегдатай
Сообщений: 4875
Регистрация: 6.2.2010
Где: Ростов-на-Дону

Репутация: 22
Всего: 135



Я не знаток линуха, но, кажется, можно после этого lynx -dump URL добавить | grep а дальше регекс типа (.*\.jpg)|(.*\.php)
Хотя правильнее будет получить все ссылки, запросить заголовок GET-запроса по каждой из них и проверить, является ли ссылка ссылкой на картинку. Кажется и это можно сделать из командной строки - какой-нибудь wget с параметром вытащить только заголовок + тот же grep


--------------------
Женщины отличаются от программистов тем, что у них чары состоят из стрингов
PM MAIL Jabber   Вверх
feodorv
Дата 10.4.2012, 16:30 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Комодератор
Сообщений: 2214
Регистрация: 30.7.2011

Репутация: 11
Всего: 45



Можно посмотреть исходный код wget.
Но нужно понимать, что html-код может генериться JavaScript'м, тогда по-простому не получится... 


--------------------
Напильник, велосипед, грабли и костыли - основные инструменты программиста...
PM MAIL   Вверх
vandaler
Дата 12.4.2012, 14:09 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 34
Регистрация: 5.11.2009

Репутация: нет
Всего: нет



Цитата(borisbn @ 10.4.2012,  06:47)
Я не знаток линуха, но, кажется, можно после этого lynx -dump URL добавить | grep а дальше регекс типа (.*\.jpg)|(.*\.php)
Хотя правильнее будет получить все ссылки, запросить заголовок GET-запроса по каждой из них и проверить, является ли ссылка ссылкой на картинку. Кажется и это можно сделать из командной строки - какой-нибудь wget с параметром вытащить только заголовок + тот же grep

в том и дело, что lynx мне не возвращает ссылки на картинки. он оставляет только ссылки на другие страницы.

PM MAIL   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "С++:Общие вопросы"
Earnest Daevaorn

Добро пожаловать!

  • Черновик стандарта C++ (за октябрь 2005) можно скачать с этого сайта. Прямая ссылка на файл черновика(4.4мб).
  • Черновик стандарта C (за сентябрь 2005) можно скачать с этого сайта. Прямая ссылка на файл черновика (3.4мб).
  • Прежде чем задать вопрос, прочтите это и/или это!
  • Здесь хранится весь мировой запас ссылок на документы, связанные с C++ :)
  • Не брезгуйте пользоваться тегами [code=cpp][/code].
  • Пожалуйста, не просите написать за вас программы в этом разделе - для этого существует "Центр Помощи".
  • C++ FAQ

Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, Earnest Daevaorn

 
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | C/C++: Общие вопросы | Следующая тема »


 




[ Время генерации скрипта: 0.0684 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.