Форум программистов [Powered by Invision Power Board]

Версия для печати темы
Нажмите сюда для просмотра этой темы в оригинальном формате

Форум программистов > Java: Общие вопросы > Проблема с Java RegExp

Автор: xp-ViT 31.1.2009, 22:54

пишу дипломную работку и надо парсить осмысленный текст со страниц HTML (Чтобы не попадали ни теги ни JS ни Стили). Нашёл на PHP решение вроде как моей задачи. но не могу понять как его сконвертить в Java. Помогите плиз.

Код


               $w="[^<>\{\}=\/\!\?\.%\+:\[\]\\\]";
    
        $sw="[^<>\{\}=\/\!\?\.%\+;:\[\]\\\ ]";
        
        if ($lang=="ru"){
            preg_match_all("/( [À-ß]{1}".$w."{50,500}".$w.$sw."{3,}[\.|\?|\!]{1})[ |\n]/sm", $f, $mas);
        } else {
            preg_match_all("/( [A-Z]{1}".$w."{50,500}".$w.$sw."{3,}[\.|\?|\!]{1})[ |\n]/sm", $f, $mas);
        }

Зараннее откликнувшимся благодарен и плюсик. Спасибо

Автор: bvfalcon 31.1.2009, 23:51

От тегов поможет избавиться паттерн </?(\w+)(\s*\w*\s*=\s*("[^"]*"|'[^']'|[^>]*))*/?>.
С CSS и JavaScript: убирайте содержимое элементов <style> и <script> соответственно.
Ваш пример на PHP, скорее всего, не сработает. Кусок "{50,500}" кажется высосанным из пальца.

Автор: xp-ViT 1.2.2009, 02:26

от тегов и чуть Проще можно вроде бы избавиться. А вот именно смысловой текст. Под ним я понимаю хотябы 5 подряд идущих слов. Причём от всех тегов избавляться нельзя (нужно только от тех которые могут быть среди текста). ибо тогда я получу чисто набор слов, а не то что было изначально смысловой нагрузкой страницы. Я считаю что это 5 и более подряд идущих слов. Я в тупике...

Автор: eskrylov 1.2.2009, 14:53

http://www.rtindex.ru/primery_java/p/prochitat_soderzhanie_html-stranicy_isklyuchiv_tegi_java_sample.html