![]() |
Модераторы: LSD, AntonSaburov |
![]() ![]() ![]() |
|
xp-ViT |
|
|||
Новичок Профиль Группа: Участник Сообщений: 33 Регистрация: 24.12.2006 Репутация: нет Всего: нет |
пишу дипломную работку и надо парсить осмысленный текст со страниц HTML (Чтобы не попадали ни теги ни JS ни Стили). Нашёл на PHP решение вроде как моей задачи. но не могу понять как его сконвертить в Java. Помогите плиз.
Зараннее откликнувшимся благодарен и плюсик. Спасибо |
|||
|
||||
bvfalcon |
|
|||
Новичок Профиль Группа: Участник Сообщений: 21 Регистрация: 4.8.2008 Репутация: -1 Всего: 0 |
От тегов поможет избавиться паттерн </?(\w+)(\s*\w*\s*=\s*("[^"]*"|'[^']'|[^>]*))*/?>.
С CSS и JavaScript: убирайте содержимое элементов <style> и <script> соответственно. Ваш пример на PHP, скорее всего, не сработает. Кусок "{50,500}" кажется высосанным из пальца. |
|||
|
||||
xp-ViT |
|
|||
Новичок Профиль Группа: Участник Сообщений: 33 Регистрация: 24.12.2006 Репутация: нет Всего: нет |
от тегов и чуть Проще можно вроде бы избавиться. А вот именно смысловой текст. Под ним я понимаю хотябы 5 подряд идущих слов. Причём от всех тегов избавляться нельзя (нужно только от тех которые могут быть среди текста). ибо тогда я получу чисто набор слов, а не то что было изначально смысловой нагрузкой страницы. Я считаю что это 5 и более подряд идущих слов. Я в тупике...
Это сообщение отредактировал(а) xp-ViT - 1.2.2009, 02:53 |
|||
|
||||
eskrylov |
|
|||
Новичок Профиль Группа: Участник Сообщений: 2 Регистрация: 29.1.2009 Репутация: нет Всего: нет |
||||
|
||||
![]() ![]() ![]() |
Правила форума "Java" | |
|
Если Вам помогли, и атмосфера форума Вам понравилась, то заходите к нам чаще! С уважением, LSD, AntonSaburov, powerOn, tux, javastic. |
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей) | |
0 Пользователей: | |
« Предыдущая тема | Java: Общие вопросы | Следующая тема » |
|
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности Powered by Invision Power Board(R) 1.3 © 2003 IPS, Inc. |