Версия для печати темы
Нажмите сюда для просмотра этой темы в оригинальном формате
Форум программистов > Perl: Общие вопросы > Коварный русский


Автор: migaro 19.12.2012, 16:11
В общем я у меня есть куча html'ок.. В каждой есть строка "хлебных крошек".. В конце строки есть текст на русском.. Мне надо регуляркой находить русский текст в конце и сохранять в переменную.. вроде все просто.. Но я заметил такой ньюанс, что текст не находиться..

Я написал такой проверочный скрипт и начал капать..

Код

#!/usr/bin/perl

use 5.010;
use strict;
use warnings;

use locale;
use POSIX qw(locale_h);
setlocale(LC_ALL, "ru_RU.CP1251");

while (<>) {
  my $match = $1 if m#alt="arrow"\s/>\s(.*)\s</span>\s*?</td>$#;
  if ($match) {
    say "$1" if $match =~ m#"arrow">(.*)$#;
  }
}


Строка в которой должно находиться совпадение:

Код


                        <td width="100%" class="thead"><span class="pathway"><a href="/index.htm" tppabs="http://domain.ru/" class="pathway"> Главная</a> <img src="/arrow.png" tppabs="http://domain.ru/templates/paranoia/images/arrow.png" border="0" alt="arrow" /> <a href="/index-3.htm" tppabs="http://domain.ru/bankivska_sprava/" class="pathway"> Банковское дело</a> <img src="/arrow.png" tppabs="http://domain.ru/templates/paranoia/images/arrow.png" border="0" alt="arrow" /> Банковские операции - Васюренко OB. </span>                        </td>


HTML - коряв и негоден, это понятно, но не в этом сейчас дело. Дело в том, файлы мне прислали и они вроде как в cp1251. 
Локаль у меня ru_RU.UTF-8, но и ru_RU.CP1251 тоже установлена и скрипт должен исполняться под ней (setlocale(LC_ALL, "ru_RU.CP1251");)..
Но почему-то не хочет.. Может кто сталкивался с работой регулярок под русский ср1251?..

Автор: arto 19.12.2012, 17:50
# cat a.txt | perl -0777 -lne 'BEGIN{ use encoding "cp1251", STDOUT => "utf8" } print join "\n", m#(\p{Cyrillic}+)#gsm;'
Главная
Банковское
дело
Банковские
операции
Васюренко
#

Добавлено через 2 минуты и 56 секунд
а если выход тоже в cp1251, то

# cat a.txt | perl -Mencoding=cp1251 -0777 -lne 'print join "\n", m#(\p{Cyrillic}+)#gsm;' 
Главная
Банковское
дело
Банковские
операции
Васюренко
#

Powered by Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)