Модераторы: Daevaorn
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> разбор html, выбор библиотеки для работы и примеры ис 
:(
    Опции темы
gagar
Дата 18.5.2010, 09:15 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 7
Регистрация: 3.8.2007

Репутация: нет
Всего: нет



Всем доброго времени суток!

Возник интересный вопрос: нужно написать модуль разбора произвольного html кода c возможностью строить DOM-дерево документа, использовать XPath и выполнять различные манипуляции с документом (например, добавление новых атрибутов к тегам).

К модулю предъявляется ряд требований:

1. размер дистрибутива не важен;
2. критична скорость обработки (я понимаю, что это все зависит от размеров и сложности html документов и производительности компа, но хотелось бы выбрать из всего набора библиотек самую производительную);
3. удобство (здесь имеется ввиду понятность API библиотеки и полнота документации);
4. перспективность (библиотека должна развиваться, что бы в будущем можно было поддерживать и html5);
5. платформа, по умолчанию, Windows, но если будет портируемый вариант, то это еще один жирный плюс;

6. Очень желательно что бы библиотека могла так же работать с xml (но это только пожелание).


Что имеется: 

1. MSHTML - "классическая" библиотека в мире  Windows от компании Microsoft;
2. libxml2 - тоже "классика" в мире Linux (впрочем, библиотека кросплатформенная);

В чем, собственно, вопрос: какая из этих библиотек лучше? Есть ли иные альтернативы? Хотелось бы сделать правильный выбор...

P.S. Неужели огромный мир C++ (особенно его Linux часть) ограничивается только двумя библиотеками для работы с html? 
PM MAIL   Вверх
djamshud
Дата 18.5.2010, 10:40 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Пердупержденный
***


Профиль
Группа: Завсегдатай
Сообщений: 1655
Регистрация: 23.11.2009

Репутация: 8
Всего: 39



В линуксе не принято городить велосипедов. libxml2 хорош. Можно воспользоваться плюсовым враппером libxmlpp или враппером для других языков. Ну и в Qt тоже есть парсеры XML.

Лучше брать libxml(pp), ибо кроссплатформенно.


--------------------
'Cuz I never walk away from what I know is right
Alice Cooper - Freedom
PM   Вверх
gagar
Дата 18.5.2010, 11:37 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 7
Регистрация: 3.8.2007

Репутация: нет
Всего: нет



А можно про враппер libxmlpp поподробнее? Где его скачать и где доки лежат?

И еще... у libxml есть в целом неплохая документация по работе с xml. Но совсем уборая по работе с html... Есть болле подробная инфа, чем с офф сайта? И где можно нарыть примеры работы с html с помощью libxml. Google ничего вразумительного не выдает...
PM MAIL   Вверх
gustavomarginale
Дата 4.9.2010, 21:26 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 49
Регистрация: 2.7.2008

Репутация: нет
Всего: нет



HTML из реальной жизни не всегда является валидным XML-документом, так что иногда DOM-дерево разваливается на запчасти.
Мои исследования: http://dramele.livejournal.com/126144.html
PM MAIL   Вверх
jonie
Дата 5.9.2010, 12:39 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Завсегдатай
Сообщений: 5613
Регистрация: 21.8.2005
Где: Владимир

Репутация: 15
Всего: 118



libtidy


--------------------
Что-то не поняли? -> Напейтесь до зеленых человечков... эта сверхцивилизация Вам поможет...
PM MAIL Jabber   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "С++:Общие вопросы"
Earnest Daevaorn

Добро пожаловать!

  • Черновик стандарта C++ (за октябрь 2005) можно скачать с этого сайта. Прямая ссылка на файл черновика(4.4мб).
  • Черновик стандарта C (за сентябрь 2005) можно скачать с этого сайта. Прямая ссылка на файл черновика (3.4мб).
  • Прежде чем задать вопрос, прочтите это и/или это!
  • Здесь хранится весь мировой запас ссылок на документы, связанные с C++ :)
  • Не брезгуйте пользоваться тегами [code=cpp][/code].
  • Пожалуйста, не просите написать за вас программы в этом разделе - для этого существует "Центр Помощи".
  • C++ FAQ

Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, Earnest Daevaorn

 
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | C/C++: Общие вопросы | Следующая тема »


 




[ Время генерации скрипта: 0.0745 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.