Модераторы: ginnie, korob2001

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> parsing xml, вытащить xml 
:(
    Опции темы
GoDleSS
Дата 25.6.2008, 11:44 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 105
Регистрация: 11.2.2007
Где: Пироговский

Репутация: нет
Всего: 2



Цитата

предлагаю: задача осмысленная, хотя сам я именно ее не решал. На сайте ozon.ru есть прайс в формате XML http://www.ozon.ru/multimedia/zip/yandexbooks.zip (более 200 Мб). Выберите из него данные по книге с определенным идентификатором (любой, по Вашему желанию).

Очень интересная, кстати, задачка, сводящаяся в большей части к построению грамотных индексов.
Хотя если выборка предстоит однарозовая(в чем сильно сомневаюсь), то к условному построчному чтению.
--------------------
It's a nice day to die my friend!
PM MAIL WWW ICQ   Вверх
Bulat
Дата 25.6.2008, 12:59 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


татарский Нео
***


Профиль
Группа: Завсегдатай
Сообщений: 1701
Регистрация: 22.3.2006
Где: Альметьевск

Репутация: нет
Всего: 57



Цитата(sir_nuf_nuf @  25.6.2008,  11:38 Найти цитируемый пост)
Тут же ошибка.. вы предполагаете, что в теле <entry> автор не может употребить свой элемент <entry>. А он может, например так:

Это не ошибка.

Я предлагаю тебе понять одну простую вещь - передо мной стоит конкретная задача - я решаю конкретную задачу.

Зачем тогда в софте пишут "version 1.0", "version 1.4" и т.п.?? Перед тобой стоят конкретные задачи и ты их решаешь. Если со временем появляются новые задачи, появляются новые версии решения задачи, патчи и т.п.

Иначе бы мы всегда имели лишь одну версию любого софтверного инструмента smile


--------------------
менеджер по кодеврайтингу  smile 
PM MAIL WWW   Вверх
sir_nuf_nuf
Дата 25.6.2008, 14:17 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 920
Регистрация: 6.1.2008

Репутация: нет
Всего: 31



Цитата(Bulat @  25.6.2008,  12:59 Найти цитируемый пост)
Зачем тогда в софте пишут "version 1.0", "version 1.4" и т.п.??

Вы о чем ?  это одна и та же версия - называется Atom 1.0

Цитата(Bulat @  25.6.2008,  12:59 Найти цитируемый пост)
Я предлагаю тебе понять одну простую вещь - передо мной стоит конкретная задача - я решаю конкретную задачу.


Я соглашаюсь понять эту вещь =) Не стоит наезжать, я грамотный человек и опыта тоже хватает.

Пару месяцев назад мы тоже решили решить конкретную задачу по обработке XML с помощью regex и других текстовых манипуляций - и вот начали появляться первые проблемы, т.к.  XML стал меняться (не формат, а содержимое).
Нам приходится заниматься поддержкой такого решения, поэтому планируем в ближайшее время перейти на DOM.


Я предлагаю остаться при своих мнениях. 


--------------------
user posted image
user posted image
PM MAIL Jabber   Вверх
Bulat
Дата 25.6.2008, 14:50 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


татарский Нео
***


Профиль
Группа: Завсегдатай
Сообщений: 1701
Регистрация: 22.3.2006
Где: Альметьевск

Репутация: нет
Всего: 57



Цитата(sir_nuf_nuf @  25.6.2008,  14:17 Найти цитируемый пост)
Вы о чем ?  это одна и та же версия - называется Atom 1.0

Я сейчас говорю не конкретных вещях. А в целом.

Цитата(sir_nuf_nuf @  25.6.2008,  14:17 Найти цитируемый пост)
Я соглашаюсь понять эту вещь =) Не стоит наезжать, я грамотный человек и опыта тоже хватает.

Ну, не я начал разбрасыватся такими фразами как "Ошибка". 

Цитата(sir_nuf_nuf @  25.6.2008,  14:17 Найти цитируемый пост)
Пару месяцев назад мы тоже решили решить конкретную задачу по обработке XML с помощью regex и других текстовых манипуляций - и вот начали появляться первые проблемы, т.к.  XML стал меняться (не формат, а содержимое).
Нам приходится заниматься поддержкой такого решения, поэтому планируем в ближайшее время перейти на DOM.

Я почти два года занимался тем, что писал на перле программы, которые занимались парсингом тех или иных файлов. И тоже сталкивался с проблемами, а порой приходилось какие-то пункты(не подпункты), вообще переделывать по-другому нежели в ТЗ. Это вполне естественное явление в программировании. И стоит ли по этому поводу говорить, что это ошибка ?? smile


--------------------
менеджер по кодеврайтингу  smile 
PM MAIL WWW   Вверх
sir_nuf_nuf
Дата 25.6.2008, 18:31 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 920
Регистрация: 6.1.2008

Репутация: нет
Всего: 31



Цитата(Bulat @  25.6.2008,  14:50 Найти цитируемый пост)
Ну, не я начал разбрасыватся такими фразами как "Ошибка". 


Да, вы правы, я как всегда некорректен =) больше не буду.

вообщем вся моя идея заключалась в том, что regex не для всего подходит. для многоно , но для XML - плохо.

Если вы утверждаете, что разбор XML с помощью regex правильнее и лучше, чем с помощью DOM, SAX и Xpath, 
то я могу попросить только не убеждать в этом других.



Это сообщение отредактировал(а) sir_nuf_nuf - 25.6.2008, 18:32


--------------------
user posted image
user posted image
PM MAIL Jabber   Вверх
tolkien
Дата 25.6.2008, 19:40 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 277
Регистрация: 5.4.2008

Репутация: нет
Всего: 4



sir_nuf_nuf
regex универсальный, а вместе с встроенным функциями index, sunbstr можно получить очень приличную скорость, гибкость, экономию ресурсов и легкость. 

А вложенность тега entry легво можно обойти. Для этого перед началом работы основной процедуры. Нужно пройтись по xml документу и всем вложенным entry присвоить уровень вложенности. entry->entry1 и т.д. Благодаря тому что xml строже htm,l то тут можно вовсю использовать index и substr, а это самые быстрые функции для работы с текстом. 

К вам такая же просьба не убеждать других что парсить htm и xml и т.д рег. выражениями есть зло
PM MAIL   Вверх
nitr
Дата 25.6.2008, 19:41 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Участник Клуба
Сообщений: 2543
Регистрация: 10.2.2006
Где: Россия :)

Репутация: 2
Всего: 84



Цитата(sir_nuf_nuf @  25.6.2008,  18:31 Найти цитируемый пост)
я могу попросить только не убеждать в этом других.

не убедят smile Знающий человек не убедится.

sir_nuf_nuf, началось после, того как вы утверждали кое-что smile При прочнении заного топика - всё станет на свои места smile (было утверждение, что regexp чаще плохо, чем хорошо)

;)


--------------------
PM   Вверх
tolkien
Дата 25.6.2008, 20:08 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 277
Регистрация: 5.4.2008

Репутация: нет
Всего: 4



sir_nuf_nuf
С вашей задачей справились. А вот вы можете справиться вот с такой задачей используя парсер html.
Нужно получить все курсы валют от сюда savechange.ru. И вывести их в такой таблице
Валюта_IN,число,Валюта_OUT,число,RESERVE_Валюта_OUT,число
PM MAIL   Вверх
nitr
Дата 25.6.2008, 20:47 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Участник Клуба
Сообщений: 2543
Регистрация: 10.2.2006
Где: Россия :)

Репутация: 2
Всего: 84



tolkien, он всё же про xml и подобия говорил... html сами знаете какой smile


--------------------
PM   Вверх
Bulat
Дата 26.6.2008, 09:45 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


татарский Нео
***


Профиль
Группа: Завсегдатай
Сообщений: 1701
Регистрация: 22.3.2006
Где: Альметьевск

Репутация: нет
Всего: 57



Цитата(sir_nuf_nuf @  25.6.2008,  18:31 Найти цитируемый пост)
вообщем вся моя идея заключалась в том, что regex не для всего подходит. для многоно , но для XML - плохо.

Если вы утверждаете, что разбор XML с помощью regex правильнее и лучше, чем с помощью DOM, SAX и Xpath, 
то я могу попросить только не убеждать в этом других.


Ну вот опять... Речь не о том, какой формат файлов парсить, а какая у нас задача.

Если тебе нужно будет написать один(!) парсер, работающий как и с XML, так и с HTML, а может и еще с каким-нить интересным форматом файла?? Подчеркиваю один общий парсер?? smile


--------------------
менеджер по кодеврайтингу  smile 
PM MAIL WWW   Вверх
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Perl: Системное программирование"
korob2001
sharq
  • В этом разделе обсуждаются вопросы относящиеся только к системному программированию на Perl
  • Если ваш вопрос не относится к системному или CGI программированию, задавайте его в общем разделе
  • Если ваш вопрос относится к CGI программированию, задавайте его здесь
  • Интерпретатор Perl можно скачать здесь ActiveState, O'REILLY, The source for Perl
  • Справочное руководство "Установка perl-модулей", можно скачать здесь


Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, korob2001, sharq.

 
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Perl: Системное программирование | Следующая тема »


 




[ Время генерации скрипта: 0.0877 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.