VPF::parsing xml - Форум программистов

yodgik1

Дата 20.6.2008, 17:22 (ссылка)

(нет голосов)

Загрузка ...

Новичок

Профиль
Группа: Участник
Сообщений: 13
Регистрация: 21.6.2007

Репутация: нет
Всего: нет

подскажите как мне вытащить из xml такого вида

Код


<soap:aa>
<asdf>
<asdfg Time="2006-09-27" Id="1" rId="9" >
<pId>21</pId><sId>1</sId><pPId>3</pPId><aa at="999999" code="SU" />
<p>123</p></asdfg>
</asdf>
</soap:aa>

всё начиная с <soap:aa> и заканчивая </soap:aa>
спасибо.

nitr

Дата 20.6.2008, 17:31 (ссылка)

(нет голосов)

Загрузка ...

Эксперт

Профиль
Группа: Участник Клуба
Сообщений: 2543
Регистрация: 10.2.2006
Где: Россия :)

Репутация: 2
Всего: 84

yodgik1, вообще-то много очень обсуждалось про XML. Вы бы сначала поиском воспользовались!
Вам для этого модуль не нужен, но во многих это желательно.

Код

#!perl
my $xml = '<soap:aa>
<asdf>
<asdfg Time="2006-09-27" Id="1" rId="9" >
<pId>21</pId><sId>1</sId><pPId>3</pPId><aa at="999999" code="SU" />
<p>123</p></asdfg>
</asdf>
</soap:aa>';

print $xml=~/<soap.+?>(.+?)<\/soap.+?>/gsm; #в переменной $1 то что вы хотите

--------------------

I love ArchLinux

ginnie

Дата 20.6.2008, 17:33 (ссылка)

(нет голосов)

Загрузка ...

Эксперт

Профиль
Группа: Комодератор
Сообщений: 1287
Регистрация: 6.1.2008
Где: Москва

Репутация: 6
Всего: 49

Уважаемый yodgik1, попробуйте

Код


if ($source =~ m{(<soap:aa>.+?</soap:aa>)}s) {
    print $1;
}

--------------------

Написать код, понятный компьютеру, может каждый, но только хорошие программисты пишут код, понятный людям. (Мартин Фаулер. Рефакторинг)

nitr

Дата 20.6.2008, 17:37 (ссылка)

(нет голосов)

Загрузка ...

Эксперт

Профиль
Группа: Участник Клуба
Сообщений: 2543
Регистрация: 10.2.2006
Где: Россия :)

Репутация: 2
Всего: 84

yodgik1, я привел пример между

Добавлено через 8 секунд
<soap:aa> ... </soap:aa>

Добавлено через 38 секунд
Возможно ginnie более прав, если

Цитата(yodgik1 @ 20.6.2008, 17:22

)

начиная с <soap:aa> и заканчивая </soap:aa>

Добавлено через 1 минуту и 40 секунд
Т.к. я не понимаю
если это весь XML, то зачем из него его же и получать ;)

Добавлено через 4 минуты и 40 секунд
yodgik1, ответьте, не мучайте ;)

--------------------

I love ArchLinux

tolkien

Дата 21.6.2008, 02:13 (ссылка)

(нет голосов)

Загрузка ...

Опытный

Профиль
Группа: Участник
Сообщений: 277
Регистрация: 5.4.2008

Репутация: нет
Всего: 4

Цитата(ginnie @ 20.6.2008, 17:33)

Код


if ($source =~ m{(<soap:aa>.+?</soap:aa>)}s) {
    print $1;
}

Немного офтопа.
<soap:aa>.+?</soap:aa>
Меня такие конструкции страшно забавляют. Они всегда исправно работают или нет? В данном шаблоне получается PERL должен угадать, что вам надо. А это значит он может ошибиться и не угадать.

sir_nuf_nuf

Дата 22.6.2008, 11:46 (ссылка)

(нет голосов)

Загрузка ...

Опытный

Профиль
Группа: Участник
Сообщений: 920
Регистрация: 6.1.2008

Репутация: нет
Всего: 31

не, не всегда.
они срабатыват пока не поменяется префикс пространства имен в XML.
Например ваш XML может выглядеть так:

Код


<zoap:aa>
<asdf>
<asdfg Time="2006-09-27" Id="1" rId="9" >
<pId>21</pId><sId>1</sId><pPId>3</pPId><aa at="999999" code="SU" />
<p>123</p></asdfg>
</asdf>
</zoap:aa>

soap -> zoap и быть при этом валидным XML.

Используйте
[code=use XML::LibXML;
my $parser = XML::LibXML->new();
my $doc = $parser->parse_string($xml);
my $xpc = XML::LibXML::XPathContext->new($doc->documentElement());
$xpc->registerNs('prefix', 'http://schemas.xmlsoap.org/soap/envelope/');
my $value = eval {$xpc->find('//prefix:aa')->textContent()};
[/code]

вообще парсить xml и html regexами- зло..

--------------------

Bulat

Дата 23.6.2008, 15:58 (ссылка)

(нет голосов)

Загрузка ...

татарский Нео

Профиль
Группа: Завсегдатай
Сообщений: 1701
Регистрация: 22.3.2006
Где: Альметьевск

Репутация: нет
Всего: 57

Цитата(sir_nuf_nuf @ 22.6.2008, 11:46

)

вообще парсить xml и html regexами- зло..

Отнюдь.

Цитата(sir_nuf_nuf @ 22.6.2008, 11:46

)

soap -> zoap и быть при этом валидным XML.

Такие изменения могут быть вообще в любом файле. Сегодня парсишь один файл логов, с парой, где

Код


....
start_time=....
....

А завтра станет

Код


...
start-time=.....
....

И что теперь?? Вообще использование регулярных выражений зло?? smile

--------------------

менеджер по кодеврайтингу smile

sir_nuf_nuf

Дата 24.6.2008, 09:28 (ссылка)

(нет голосов)

Загрузка ...

Опытный

Профиль
Группа: Участник
Сообщений: 920
Регистрация: 6.1.2008

Репутация: нет
Всего: 31

Цитата(Bulat @ 23.6.2008, 15:58

)

Отнюдь.

1) Это не надежное решение. Плохой стиль.
2) XPath намного удобней regex при работе с XML.
3) Вот как вы проверяете работу regex ? Да просто берет и проверяете на 1 XML.
В результате вы можете быть уверены, что ваш regex работает на 1 xml.
Завтра может прийти другой, на котором не работает. Например банально пробелов добавили
(которые убираются нормализацией XML), поменяли префиксы, или в какой-то тэг добавили атрибут, а вы его
раньше искали как /<bla>/
4) как вы проверите , что XML не валидный ?

Изменение

Цитата

start-time

на

Цитата

statrt_time

это изменение формата файла. За это несет ответственность тот, кто это сделал. Он должен был вам (и другим)
как то об этом сообщить.

Изменение префикса пространства имен - это НЕ изменение формата, о таких вещах никто не должен вас оповещать
и придраться к ним будет нельзя.

--------------------

Bulat

Дата 24.6.2008, 12:00 (ссылка)

(нет голосов)

Загрузка ...

татарский Нео

Профиль
Группа: Завсегдатай
Сообщений: 1701
Регистрация: 22.3.2006
Где: Альметьевск

Репутация: нет
Всего: 57