Модераторы: Daevaorn
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Небольшая проблема с парсингом ссылок, Лишние символы 
:(
    Опции темы
ShaiTan
Дата 16.12.2011, 10:03 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 7
Регистрация: 21.8.2006

Репутация: нет
Всего: нет



Такой код:
Код

soup = BeautifulSoup.BeautifulSoup(body)
urls = [tag['href'] for tag in soup.findAll('a')]
random.shuffle(urls)
print (urls[1])
rurl = ('http://domain.com' + (urls[1]))

Собирает внутреннии ссылки, выбирает рандомную, приводит в норм. вид. Проблема в том, что некоторые ссылки имеют в начале слеш /, а другие нет. Соответственно часть ссылок нерабочая - http://domain.com//(urls[1]) или http://domain.com(urls[1]) в зависимости от наличия слеша здесь:
Код

rurl = ('http://domain.com' + (urls[1]))

Плюс попадаются внешние ссылки. Они тоже собираются и портят картину.
Возможно в некоторых случаях внутренние ссылки будут также начинаться с http://domain.com...
Как все это грамотно и макс просто разрулить?
Нужны только внутренние ссылки, 100% рабочие.
PM MAIL   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Python: Общие вопросы | Следующая тема »


 




[ Время генерации скрипта: 0.0553 ]   [ Использовано запросов: 22 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.