Модераторы: LSD, AntonSaburov
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Проблема с Java RegExp 
:(
    Опции темы
xp-ViT
Дата 31.1.2009, 22:54 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 33
Регистрация: 24.12.2006

Репутация: нет
Всего: нет



пишу дипломную работку и надо парсить осмысленный текст со страниц HTML (Чтобы не попадали ни теги ни JS ни Стили). Нашёл на PHP решение вроде как моей задачи. но не могу понять как его сконвертить в Java. Помогите плиз.

Код

               $w="[^<>\{\}=\/\!\?\.%\+:\[\]\\\]";
    
        $sw="[^<>\{\}=\/\!\?\.%\+;:\[\]\\\ ]";
        
        if ($lang=="ru"){
            preg_match_all("/( [À-ß]{1}".$w."{50,500}".$w.$sw."{3,}[\.|\?|\!]{1})[ |\n]/sm", $f, $mas);
        } else {
            preg_match_all("/( [A-Z]{1}".$w."{50,500}".$w.$sw."{3,}[\.|\?|\!]{1})[ |\n]/sm", $f, $mas);
        }


Зараннее откликнувшимся благодарен и плюсик. Спасибо
PM MAIL   Вверх
bvfalcon
Дата 31.1.2009, 23:51 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 21
Регистрация: 4.8.2008

Репутация: -1
Всего: 0



От тегов поможет избавиться паттерн </?(\w+)(\s*\w*\s*=\s*("[^"]*"|'[^']'|[^>]*))*/?>.
С CSS и JavaScript: убирайте содержимое элементов <style> и <script> соответственно.
Ваш пример на PHP, скорее всего, не сработает. Кусок "{50,500}" кажется высосанным из пальца.
PM   Вверх
xp-ViT
Дата 1.2.2009, 02:26 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 33
Регистрация: 24.12.2006

Репутация: нет
Всего: нет



от тегов и чуть Проще можно вроде бы избавиться. А вот именно смысловой текст. Под ним я понимаю хотябы 5 подряд идущих слов. Причём от всех тегов избавляться нельзя (нужно только от тех которые могут быть среди текста). ибо тогда я получу чисто набор слов, а не то что было изначально смысловой нагрузкой страницы. Я считаю что это 5 и более подряд идущих слов.   Я в тупике...

Это сообщение отредактировал(а) xp-ViT - 1.2.2009, 02:53
PM MAIL   Вверх
eskrylov
Дата 1.2.2009, 14:53 (ссылка) |    (голосов:1) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 2
Регистрация: 29.1.2009

Репутация: нет
Всего: нет



PM MAIL   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Java"
LSD   AntonSaburov
powerOn   tux
javastic
  • Прежде, чем задать вопрос, прочтите это!
  • Книги по Java собираются здесь.
  • Документация и ресурсы по Java находятся здесь.
  • Используйте теги [code=java][/code] для подсветки кода. Используйтe чекбокс "транслит", если у Вас нет русских шрифтов.
  • Помечайте свой вопрос как решённый, если на него получен ответ. Ссылка "Пометить как решённый" находится над первым постом.
  • Действия модераторов можно обсудить здесь.
  • FAQ раздела лежит здесь.

Если Вам помогли, и атмосфера форума Вам понравилась, то заходите к нам чаще! С уважением, LSD, AntonSaburov, powerOn, tux, javastic.

 
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Java: Общие вопросы | Следующая тема »


 




[ Время генерации скрипта: 0.0611 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.