![]() |
Модераторы: korob2001, ginnie |
![]() ![]() ![]() |
|
Гость_s_a_s_h_a |
|
|||
Unregistered |
Люди, расскажите, пожалуйста, как использовать модуль HTML::Parser для анализа HTML-кода.
Я смотрел документацию на http://search.cpan.org , но с моим очень плохим знанием англицкого ничего не понял, и экзамплы - единственное мое спасение - тоже не понял. Мне надо получить информацию об имеющихся в HTML-документе формах, а именно name and action формы, списки input'ов, их types, names and values, а также аналогичную инфоррмацию об select'ах, textarea и т.п. Всем, принявшим участие в развитии этой темы, заранее говорю спасибо. |
|||
|
||||
ElectricalStorm |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Клуба Сообщений: 547 Регистрация: 22.1.2004 Репутация: нет Всего: 9 |
что нужно конкретно ?
Добавлено @ 08:41 вот тут снаяала посморите ... если не поможет то сюда ... http://www.foo.be/docs/tpj/issues/vol5_1/tpj0501-0003.html -------------------- Нужно знать инструмент, которым пользуешься |
|||
|
||||
Гость_s_a_s_h_a |
|
|||
Unregistered |
Посмотрел. Не помогло. Конкретно мне нужно следующее.
У меня есть строка, содержащая код HTML-страницы. Надо получить информацию о каждой форме на этой странице, т.е.: форма 1 name="name" action="url" input type="type_1" name="name_1" value="value_1" input type="type_2" name="name_2" value="value_2" select name="name" option_1 option_2 .......... textarea name="name" форма 2 name action ............... |
|||
|
||||
Secandr |
|
|||
![]() Связист ![]() ![]() ![]() ![]() Профиль Группа: Экс. модератор Сообщений: 4043 Регистрация: 3.8.2003 Где: Russia, Volgograd Репутация: нет Всего: 39 |
А самому руками разобрать при помощи регекспов?
|
|||
|
||||
Гость_s_a_s_h_a |
|
|||
Unregistered |
Я извращенец в программировании, поэтому лучше использовать то, что сделали более опытные люди. Как-то давно уже пытался это сделать и ничего не получилось. Хотя... надо покопаться в архивах. Кажется я понял как это сделать. Но все равно. Как все-таки использовать этот модуль. Привидите код, пожалуйста, на каком-нибудь маленьком примере с реальными данными (в том смысле, что не так
$p = HTML::Parser->new( api_version => 3, start_h => [\&start, "tagname, attr"], end_h => [\&end, "tagname"], marked_sections => 1, ); где не понятно, что можно подставить и куда и как потом это использовать). |
|||
|
||||
ElectricalStorm |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Клуба Сообщений: 547 Регистрация: 22.1.2004 Репутация: нет Всего: 9 |
-------------------- Нужно знать инструмент, которым пользуешься |
|||
|
||||
Secandr |
|
|||
![]() Связист ![]() ![]() ![]() ![]() Профиль Группа: Экс. модератор Сообщений: 4043 Регистрация: 3.8.2003 Где: Russia, Volgograd Репутация: нет Всего: 39 |
Если нужно парсить какой-то один файл или сайт, который изменяться не будет, то логичнее написать регексп. Будет быстрее и надёжнее.
Если нужно парсить разные сайты, формат которых неизвстен, то лучше использовать готовый модуль. |
|||
|
||||
ElectricalStorm |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Клуба Сообщений: 547 Регистрация: 22.1.2004 Репутация: нет Всего: 9 |
Надежнее не факт что будет (это обуславливается не строгостью формата HTML )
.... и тем более не факт что быстрее ... (тем что регекспы работающие быстро еще надо научиться писать ) -------------------- Нужно знать инструмент, которым пользуешься |
|||
|
||||
Гость_s_a_s_h_a |
|
|||
Unregistered |
Парсить нужно разные сайты, формат которых неизвестен.
Спасибо за ссылку. Правда я ее уже видел. У меня маленький стаж программирования и поэтому есть некоторые трудности. В данном случае возникли следующие вопросы: package ParseForm; use strict; use vars qw(@ISA $inrecord $inform); @ISA = qw(HTML::Parser); require HTML::Parser; Что должны содержать переменные $inrecord $inform. И что именно делает эта часть кода. use HTML::Parser; $p = HTML::Parser -> new(); Это мне понятно, а то что выше нет. Я также не понял, где вызываются процедуры start() and end(), а также почему в одном скрипте встречается два раза строка #!/usr/bin/perl -w |
|||
|
||||
ElectricalStorm |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Клуба Сообщений: 547 Регистрация: 22.1.2004 Репутация: нет Всего: 9 |
я тоже посмотрел эту статью ....руки оторвать тому кто её писал...
посмотрите HTML::TokeParser он более простой ... -------------------- Нужно знать инструмент, которым пользуешься |
|||
|
||||
Гость_s_a_s_h_a |
|
|||
Unregistered |
Спасибо за солидарность. Мало кто умеет доходчиво написать для ламеров и юзеров, а методом тыка иногда надоедает действовать.
|
|||
|
||||
ElectricalStorm |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Клуба Сообщений: 547 Регистрация: 22.1.2004 Репутация: нет Всего: 9 |
вот маленький примерчик набросал посмотрите
-------------------- Нужно знать инструмент, которым пользуешься |
|||
|
||||
Гость_s_a_s_h_a |
|
|||
Unregistered |
Посмотрел код. Ругается:
Can't call method "get_tag" on an undefined value at while (my $token = $p->get_tag("form")) а также на строки while (my $token = $p->get_tag("a")) while (my $token = $p->get_tag("title")) и другие. |
|||
|
||||
ElectricalStorm |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Клуба Сообщений: 547 Регистрация: 22.1.2004 Репутация: нет Всего: 9 |
а вы как вызывали ?
Добавлено @ 12:06 надо еще файл на вход -------------------- Нужно знать инструмент, которым пользуешься |
|||
|
||||
Гость_s_a_s_h_a |
|
|||
Unregistered |
пример из мана:
use HTML::TokeParser; $p = HTML::TokeParser->new($STR1); if ($p->get_tag("title")) { my $title = $p->get_trimmed_text; print "Title: $title\n"; } $STR1 получаю из запроса к удаленному скрипту. Проверял - она содержит HTML-код |
|||
|
||||
achmed |
|
|||
Бывалый ![]() Профиль Группа: Участник Сообщений: 150 Регистрация: 12.4.2004 Репутация: нет Всего: нет |
см.
perldoc HTML::Parser там все понятно описано, с примерами |
|||
|
||||
Гость_s_a_s_h_a |
|
|||
Unregistered |
Нашел bug - если передаем строку для парсинга то надо поставить перед перед переменной \
use HTML::TokeParser; $p = HTML::TokeParser->new(\$STR1); if ($p->get_tag("title")) { my $title = $p->get_trimmed_text; print "Title: $title\n"; } |
|||
|
||||
ElectricalStorm |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Клуба Сообщений: 547 Регистрация: 22.1.2004 Репутация: нет Всего: 9 |
мой пример заработал у Вас ?
-------------------- Нужно знать инструмент, которым пользуешься |
|||
|
||||
korob2001 |
|
|||
![]() Эксперт ![]() ![]() ![]() ![]() Профиль Группа: Комодератор Сообщений: 2871 Регистрация: 29.12.2002 Репутация: 13 Всего: 61 |
Програ которую написал ElectricalStorm прекрасно работает только при вызове необходимо передать имя нужного html файла или в текущем каталоге должен быть файл с именем index.thml.
Вызывай примерно так: C:\>perl myparser.pl home.html Удачи. -------------------- "Время проходит", - привыкли говорить вы по неверному пониманию. "Время стоит - проходите вы". |
|||
|
||||
Гость_s_a_s_h_a |
|
|||
Unregistered |
ElectricalStorm, не совсем. Если в документе больше одной формы, то он [скрипт] выдает, информацию о всех инпутах, но только об одном теге <form> - первом. Сейчас работаю над этой траблой. А ведь еще надо собрать инфу об опшинах тега <select>. Но главное начать. Спасибо, с вашей помощью у меня это получилось. |
|||
|
||||
ElectricalStorm |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Клуба Сообщений: 547 Регистрация: 22.1.2004 Репутация: нет Всего: 9 |
вообщем то понятно почему она так делает ...
вложеным вайлом доходит до конца файла .... начиная с первого тега form -------------------- Нужно знать инструмент, которым пользуешься |
|||
|
||||
Гость_s_a_s_h_a |
|
|||
Unregistered |
Это и мне понятно. Я уже немного модифицировал этот алгоритм. Теперь надо то что получилось в кучу собрать.
sub dumpHash { my $h = shift; print $_." => ".$h->{$_},"<br>" for (keys %{$h}); } use HTML::TokeParser; $p = HTML::TokeParser->new(\$STR1); my @tags= ("form","input","select","/select","texterea","/textarea","/form"); while (my $input_token = $p->get_tag(@tags)) { print $input_token->[0] , "<br>"; for (@$input_token) { if (ref eq "HASH" ) { dumpHash($_); print "<br>"; } } } |
|||
|
||||
ElectricalStorm |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Клуба Сообщений: 547 Регистрация: 22.1.2004 Репутация: нет Всего: 9 |
видите как легко получилось ....
а дальшле уже можно хоть чего с ним делать .... остальное можно без помощи модуля...
Это сообщение отредактировал(а) ElectricalStorm - 6.8.2004, 17:13 -------------------- Нужно знать инструмент, которым пользуешься |
|||
|
||||
Гость_s_a_s_h_a |
|
|||
Unregistered |
Проблемы продолжаются. Теперь столкнулся со следующим недоразумением. Мне надо получить значение опшинов внутри тега <select>, используя функции get_text или get_trimmed_text, я их получаю, но они никак не разделены. Как это обойти. Вот кусок скрипта.
use HTML::TokeParser; $p = HTML::TokeParser->new(\$STR1); my @tags=("form","input","select","/select","texterea","/textarea","/form"); while (my $input_token = $p->get_tag(@tags)) { if($input_token->[0] eq 'select') { $str = $p->get_trimmed_text("/select"); #получили строку с значениями опшинов никак не разделенными. } } аналогичный результат, если $str = $p->get_text("/select"); и совсем пусто если $str = $p->get_trimmed_text; или $str = $p->get_text; Если кто-то что-то понял, помогите, пожалуйста. |
|||
|
||||
Гость_s_a_s_h_a |
|
|||
Unregistered |
Меня осенило и я сделал это сам.
my @tags=("form","input","select","option","/select","texterea","/textarea","/form"); my $str2=""; while (my $input_token = $p->get_tag(@tags)) { if($input_token->[0] eq 'select') { $str2="";} if($input_token->[0] eq 'option') { my $str1 = $p->get_text; $str2=$str2.":::".$str1; } } |
|||
|
||||
aleksnn |
|
|||
Новичок Профиль Группа: Участник Сообщений: 32 Регистрация: 27.4.2005 Репутация: нет Всего: 2 |
Из google часто попадал сюда - учась парсить.
Теперь знаю как и скажу другим ![]() Делается так: use HTML::Parser; $parser = HTML::Parser->new(api_version => 3); $parser ->handler(default => \&link_ext, 'tagname,text'); $parser->parse($html); # $html ваш файл sub link_ext{ my ($tag, $text) = @_; return if $tag eq ""; print "$tag => $text \n"; } см perldoc HTML::Parser для просвещения. |
|||
|
||||
player943 |
|
|||
![]() Новичок Профиль Группа: Участник Сообщений: 9 Регистрация: 22.11.2006 Где: Самара Репутация: нет Всего: нет |
Граждане, раз уж есть такая тема то помогите с программой.
Сразу: rtfm читал. Суть: надо используя HTML::TokeParser рассчитать частоту слов и фраз из двух-трех слов, исключая предлоги и знаки припинания, а также HTML теги и код JavaScript. Вопрос: нужно перебирать все возможные тэги html или как просче ? |
|||
|
||||
Zukoff |
|
|||
Новичок Профиль Группа: Участник Сообщений: 11 Регистрация: 25.6.2006 Репутация: нет Всего: нет |
Саша, ті решил заспамить гостевые книги?
![]() лучше купи спамилку за 50 баксов |
|||
|
||||
nitr |
|
|||
![]() Эксперт ![]() ![]() ![]() ![]() Профиль Группа: Участник Клуба Сообщений: 2543 Регистрация: 10.2.2006 Где: Россия :) Репутация: 12 Всего: 84 |
Ребят... тема 2006 года... давайте не флудить... и тем более оффтопить...
|
|||
|
||||
aleksnn |
|
||||||
Новичок Профиль Группа: Участник Сообщений: 32 Регистрация: 27.4.2005 Репутация: нет Всего: 2 |
Это вопрос ко мне? ![]() Сейчас скажу, что я тогда делал. Я писал многопоточный менеджер закачек, висящий на сервере, который проходя по указанному сайту находил картинки, закачивал на сервер, пережимал размер, скдадывал результирующее изображение на другой хост по фтп, и высылал отчёт на емейл в архивированном виде. Частично я сего монстра написал и раза три использовал ![]() И чтобы сильно не офтопить отвечу на вопрос player943 как просче Я когда-то подсчитывал количество полезных символов на странице примерно так Открыл исходный текст нашёл там теги начала и конца полезного текста Для этой страницы это
сохранил страницу как index.htm. запускаю такой код
который выдаёт мне десять строк полезных слов ![]() |
||||||
|
|||||||
![]() ![]() ![]() |
Правила форума "Perl: CGI программирование" | |
|
Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, korob2001, sharq. |
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей) | |
0 Пользователей: | |
« Предыдущая тема | Perl: разработка для Web | Следующая тема » |
|
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности Powered by Invision Power Board(R) 1.3 © 2003 IPS, Inc. |