![]() |
Модераторы: korob2001, ginnie |
![]() ![]() ![]() |
|
LisaST |
|
|||
Шустрый ![]() Профиль Группа: Участник Сообщений: 56 Регистрация: 8.4.2006 Где: Munich Репутация: нет Всего: нет |
Описание задачи,
нужно составить коллекцию текстов описаний того, чем занимается фирма (в основном страница "about us", около1000 фирм) на английском языке. Текст должeн быть предствален в формате .тхт Я пыталась решить эту задачу в Wget и lynx например wget -r -l1 -H -A txt http://www.xxxxxxx.xxx ничего хорошего из этого не вышло :( получила несколько страниц index.html, но не секцию "about us". Пробовала также с опцией wget -A "*about*" Поискала тут на форуме похожие примеры, но везде описывается,как загрузить 1 .хтмл страницу,а мне нужно например автоматизировать этот процесс (как в wget recursive download). Модулями пользоваться не умею, т.к. не программист (при поиске было указание использовать ::LWP).. вот тут например решение (но мне надо на большое количество страниц) Primer poluchenija stranic еще вопрос,т.к. информация на "about us" не всегда преставленя в виде текста, была идея загружат мета-теги со страниц фирм (Description и Content), но тоже не знаю как это можно реализовать. нашла пример, но пока не на чен тестировать (проблема с множественным получением хтмл страниц) grep '<META name="description"' | sed -e 's,<META name="description" content=",,' | sed -e 's/">//' | awk '{sub("\r$","");print}'` спасибо зарание |
|||
|
||||
amg |
|
|||
Эксперт ![]() ![]() ![]() Профиль Группа: Завсегдатай Сообщений: 1145 Регистрация: 3.8.2006 Где: Новосибирск Репутация: 38 Всего: 50 |
LisaST, советую попробовать lynx -dump URL > file.txt. Это, наверное, лучший из известных мне способов получить красивый текст из html-страницы.
Кроме того, в составе библиотеки libwww-perl (это и есть модуль LWP) есть несколько уже готовых скриптов, вполне функциональных, с подробным описанием. Просто воспользуйтесь ими. |
|||
|
||||
LisaST |
|
|||
Шустрый ![]() Профиль Группа: Участник Сообщений: 56 Регистрация: 8.4.2006 Где: Munich Репутация: нет Всего: нет |
dump функцию тоже уже пробовала..проблема в том,что lynx это по сути браузер и не позволяет автоматизировать процесс (задать более 100 URL например) можно мне ссылку на пример использования LWP для множества ссылок ps нашла webplack, вроде бы должен подходить для этой цели, попробую сегодня вечером Это сообщение отредактировал(а) LisaST - 26.2.2008, 15:32 |
|||
|
||||
trigger |
|
|||
![]() Шустрый ![]() Профиль Группа: Участник Сообщений: 103 Регистрация: 12.7.2006 Репутация: нет Всего: нет |
ну вот еще - когдато делалось. если коечто переделать и использовать советы бывалых и настроить для себя, то сто пудов получится.
вот еще пример рекурсивного обхода - но он отваливается ![]() |
|||
|
||||
LisaST |
|
|||
Шустрый ![]() Профиль Группа: Участник Сообщений: 56 Регистрация: 8.4.2006 Где: Munich Репутация: нет Всего: нет |
применила w3mir, загружает много хтмл страниц, из которых надо удалять все теги. Решить задачу, как загружать только about us страницы пока не удалось
-------- пытаюсь избавиться от всех тегов и комментариев (нужен только текст) в файлах загруженных с помощью w3mir подскажите, почему не работает такой способ пытаюсь сконкатенировать все .асп файлы в директории и передать их программке..получаю пустой файл test1 $ cat *.asp | perl TAG_rm.pl > test1.txt где что надо поменять? perl TAG_rm.pl
Это сообщение отредактировал(а) LisaST - 27.2.2008, 01:36 |
|||
|
||||
LisaST |
|
|||
Шустрый ![]() Профиль Группа: Участник Сообщений: 56 Регистрация: 8.4.2006 Где: Munich Репутация: нет Всего: нет |
пробовала также избавиться от Тегов с помощью
в файле > stripped.txt, в который передаю через пайп результат получаю толко одно слово INDEX.txt, как "заставить" программу работать? очень нужен ответ также вместе файла пробовала вставить get("http://websitename.com") получаю ошибку Undefined subroutine &main::get called at strip_tags.pl line 12. Это сообщение отредактировал(а) LisaST - 1.3.2008, 20:55 |
|||
|
||||
KSURi |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 887 Регистрация: 8.6.2006 Где: Russia Репутация: 20 Всего: 27 |
ого, а это что за хитрая конструкция?) perldoc -f open -------------------- Died at Life.pl line 21 |
|||
|
||||
LisaST |
|
|||
Шустрый ![]() Профиль Группа: Участник Сообщений: 56 Регистрация: 8.4.2006 Где: Munich Репутация: нет Всего: нет |
no comments
![]() разобралась с открытием файла
|
|||
|
||||
amg |
|
||||
Эксперт ![]() ![]() ![]() Профиль Группа: Завсегдатай Сообщений: 1145 Регистрация: 3.8.2006 Где: Новосибирск Репутация: 38 Всего: 50 |
|
||||
|
|||||
LisaST |
|
|||
Шустрый ![]() Профиль Группа: Участник Сообщений: 56 Регистрация: 8.4.2006 Где: Munich Репутация: нет Всего: нет |
спасибо,
но в Вашем примере получается, что надо заведомо скармливать линки, которые референцируют не на главную страницу фирмы (например автоматически полученные линки из dmoz.org), а саму "about us" страницу, кот. надо сначала найти вручную и скопировать линк для lynx, если я таким образом хочу получить 500 и более страниц, получается, что мне надо найти 500 описаний фирмы вручную и скормить их lynx. пока я делала так 1.lynx -dump "http://www.compcatalogue.com/" | egrep -o "http:.*" > mylinks.txt 2.wget -r -l2 -H -t1 -nd -np (-A.html) -erobots=off -i mylinks.txt 3.strip_tags.p еще пыталась что-то сделать с imacros для Firefox, там можно настроить браузер для получения только текста со страниц, но получила не очень хорошие результаты |
|||
|
||||
amg |
|
|||
Эксперт ![]() ![]() ![]() Профиль Группа: Завсегдатай Сообщений: 1145 Регистрация: 3.8.2006 Где: Новосибирск Репутация: 38 Всего: 50 |
Если имеется список главных страниц, и на них есть ссылки на "About Us", то можно попытаться автоматизировать процесс:
|
|||
|
||||
LisaST |
|
|||
Шустрый ![]() Профиль Группа: Участник Сообщений: 56 Регистрация: 8.4.2006 Где: Munich Репутация: нет Всего: нет |
получаю файлы в странном формате (binary), которые распознаются как DOS-Application и которые невозможно скопировать в виде текста
пример 00 набор цифр текст 01 етц |
|||
|
||||
amg |
|
|||
Эксперт ![]() ![]() ![]() Профиль Группа: Завсегдатай Сообщений: 1145 Регистрация: 3.8.2006 Где: Новосибирск Репутация: 38 Всего: 50 |
||||
|
||||
LisaST |
|
|||
Шустрый ![]() Профиль Группа: Участник Сообщений: 56 Регистрация: 8.4.2006 Где: Munich Репутация: нет Всего: нет |
из этох сайтов получила 2 файлa, по-поводу формата см. пред. пост |
|||
|
||||
amg |
|
||||
Эксперт ![]() ![]() ![]() Профиль Группа: Завсегдатай Сообщений: 1145 Регистрация: 3.8.2006 Где: Новосибирск Репутация: 38 Всего: 50 |
LisaST, попробовал. Те два сайта, для которых странички "About Us" скачиваются, у меня получаются вполне нормально, за исключением, может быть, кусков, содержащих иероглифы. Что касается остальных, которые не скачиваются, тут, IMHO, не обойтись без следующей процедуры.
Во-первых, скачивать главные странички не в виде текста, а html-код. Во-вторых, надо набрать статистику, в каком контексте в html-коде главных страничек обычно присутствует ссылка на "About Us". При этом для получения html-кода главных страничек можно использовать что-то вроде
Муторная работа, конечно, но другого пути не вижу. |
||||
|
|||||
![]() ![]() ![]() |
Правила форума "Perl" | |
|
Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, korob2001, sharq. |
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей) | |
0 Пользователей: | |
« Предыдущая тема | Perl: Общие вопросы | Следующая тема » |
|
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности Powered by Invision Power Board(R) 1.3 © 2003 IPS, Inc. |