Версия для печати темы
Нажмите сюда для просмотра этой темы в оригинальном формате
Форум программистов > Java: Общие вопросы > Перегон из html в plain text


Автор: PovAnd 28.11.2007, 11:08
Необходимо сделать функцию, которую можно применять к любому html - тексту с учетом уничтожения тегов - корректной их замены на перевод строки и пропуск строки. Наверняка существуют готовые библиотеки на эту тему - которые из HTML делают plain text с правильной заменой тегов на переводы каретки и пропуски строк. Может кто подскажет где такое взять или посмотреть?

Автор: hamsterKSU 28.11.2007, 12:06
может подойтет http://www.clapper.org/software/java/util/javadocs/util/api/org/clapper/util/text/HTMLUtil.html

или руками: загружаешь в DOM - обходишь дерево и выбираешь инфу smile

Автор: PovAnd 28.11.2007, 12:30
От, спасибо большущее. Вроде чета парсит. 
Я тут на другую либу наткнутлся из проекта  http://jerichohtml.sourceforge.net/. Только он выскубает читсто текст, игнорируя переводы на новую строка, а этот вроде ничего - перводит  smile 

Powered by Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)