Форум программистов [Powered by Invision Power Board]

Версия для печати темы
Нажмите сюда для просмотра этой темы в оригинальном формате

Форум программистов > JavaScript: Общие вопросы > Помогите подправить кодировщик

Автор: animegirl 13.7.2013, 20:13

В своей работе, использую функцию по перекодированию ббкод тэгов в обычные ХТМЛ тэги, проблема в том, что некоторые вложенные тэги создают ошибки.
Моя функция:

Код


function code_to_html(text)
    {
    search = new Array(
        /\[b\](.*?)\[\/b\]/ig,
        /\[i\](.*?)\[\/i\]/ig,
        /\[u\](.*?)\[\/u\]/ig,
        /\[s\](.*?)\[\/s\]/ig,
        /\[url\](.*?)\[\/url\]/ig,
        /\[url\="?(.*?)"?\](.*?)\[\/url\]/ig,
        /\[img\](.*?)\[\/img\]/ig,
        /\[quote](.*?)\[\/quote\]/igm,
        /\[quote\="?(.*?)"?\](.*?)\[\/quote\]/igm);

    replace = new Array(
        "<span class=\"code_b\">$1</span>",
        "<span class=\"code_i\">$1</span>",
        "<span class=\"code_u\">$1</span>",
        "<span class=\"code_s\">$1</span>",
        "<a href=\"$1\" rel=\"nofollow\">$1</a>",
        "<a href=\"$1\" rel=\"nofollow\">$2</a>",
        "<img src=\"$1\" alt=\"An image\">",
        "<div class=\"quote_div\">$1</div>",
        "<div class=\"quote_div\"><div class=\"quote_author_div\">$1 wrote:</div>$2</div>");

    for(i = 0; i < search.length; i++)
        {
        text = text.replace(search[i],replace[i]);
        }

    return text;
    }

Если сделать вложенное цитирование, например так

Код


[quote]a[quote]b[/quote][/quote]c

то я в итоге получаю блок цитаты с

Код


a[quote]b

внутри и

Код

[/quote]c

снаружи.

Как мне подправить мою функцию, чтобы она могла разбирать вложенные тэги, без таких коллизий?

smile

Автор: Arantir 13.7.2013, 20:42

Для начала - не использовать ленивые выражения для допускающих вложенность тегов.
Точка - любой символ. Так что

Код


/\[quote\](.*)\[\/quote\]/igm

захавает самый первый [ quote ] и самый последний [ /quote ].

После этого получится

Код


<div class=\"quote_div\">a[quote]b[/quote]</div>c

так что придется найденное группой (.*) пропарсить еще раз.

Лучше будет сделать для тегов с вложенностью отдельною функцию замены и взвывать ее рекурсивно для найденной группы.

Автор: animegirl 13.7.2013, 21:43

Arantir,
Колдую над регуляркой, хочу её подправить, там где вы правильно указали, вместо "любой символ", хочу сделать "любой символ, кроме [цитата]", чё-то как не кручу, результат нулевой, хотя бы внутренняя цитаты обработалась бы, уже было чуток проще (

Добавлено через 29 секунд

Код


/\[quote\](^[\[quote\]][.*?])\[\/quote\]/igm,

Автор: Arantir 13.7.2013, 22:15

А почему бы просто не заменить все [quоte] на <div class="quote_div">, а все [/quоte] на </div>? smile

Цитата(animegirl @ 13.7.2013, 20:43

)

вместо "любой символ", хочу сделать "любой символ, кроме [цитата]"

Это ломает всю идею. Регулярке на другие [quоte] и так наплевать. В ней же они только по одному разу указаны, один раз она их и найдет - самую ближнюю и самую дальнюю, а между ними - все, что угодно.
Суть идеи была в том, чтобы вот это все между ними пропустить через замену еще раз. И так пока там не останется в ни одной [quоte] в очередном вхождении.

Автор: animegirl 13.7.2013, 22:26

Arantir,
Долго пыталась понять "А реально, почему бы и нет?", а потом поняла, да очень просто, если юзер не закроет тэг, он сможет сломать весь вид. А это раздолье для вандалов.

Добавлено через 1 минуту и 15 секунд
Arantir,
По поводу ломки идеи, как раз таки нет, я поставлю процесс на рекурсию, и выходом будет тот факт, что строка не изменила свой вид.

Автор: Arantir 13.7.2013, 22:44

Цитата(animegirl @ 13.7.2013, 21:26

)

я поставлю процесс на рекурсию, и выходом будет тот факт, что строка не изменила свой вид.

Для этого не обязательно

Цитата(animegirl @ 13.7.2013, 20:43

)

вместо "любой символ", хочу сделать "любой символ, кроме [цитата]"

Например, для строки

Код


0[quote]1[quote]2[quote]3[/quote][/quote]4[/quote]5[/quote]6

рекурсия приведет к

Код


3[/quote]

в чем нету

Код


/\[quote\](.*)\[\/quote\]/igm

а так как не нашлось указанной группы, то рекурсия остановится (нет для кого ее продолжить).

Автор: animegirl 13.7.2013, 22:59

Arantir,
Не поняла, почему? Вот как я вижу эту рекурсию:

Код


function code_to_html(text)
    {
    var old_text = null;
    do
        {
        old_text = text;
        search = new Array(
            /\[quote\](^[\[quote\]])\[\/quote\]/igm,
            /\[quote\="?(.*?)"?\](.*?)\[\/quote\]/igm,
            );
        
        replace = new Array(
            "<div class=\"quote_div\">$1</div>",
            "<div class=\"quote_div\"><div class=\"quote_author_div\">$1 wrote:</div>$2</div>",
            );
        
        for(i = 0; i < search.length; i++)
            {
            text = text.replace(search[i],replace[i]);
            }
        }
    while(text !== old_text);
    
    return text;
    }

Автор: Arantir 13.7.2013, 23:00

В физическом представлении моя доселе неосязаемая идея выглядит так:

Код


    function includable_tags(pattern, replace, text)
    {
        var match = (new RegExp(pattern[0], pattern[1])).exec(text);
        if (match == null)
            return text;
        if ((new RegExp(pattern[0], pattern[1])).exec(match[1]) == null)
            return text.replace((new RegExp(pattern[0], pattern[1])), replace);
        return includable_tags(pattern, replace, text.replace(match[1], includable_tags(pattern, replace, match[1])));
    }

Из-за того, что объекты передаются по ссылкам пришлось каждый раз создавать новый regexp, чтобы рекурсия не сломалась, так как результаты поиска в нем оставались бы старые.

Тест:

Код


    var p = ['\\[quote\\](.*)\\[/quote\\]', 'gim'];
    var r = "<div class=\"quote_div\">$1</div>";
    console.log(includable_tags(p,r,"3"));
    console.log(includable_tags(p,r,"2[quote]3[/quote]4"));
    console.log(includable_tags(p,r,"1[quote]2[quote]3[/quote]4[/quote]5"));
    console.log(includable_tags(p,r,"0[quote]1[quote]2[quote]3[/quote]4[/quote]5[/quote]6"));
    console.log(includable_tags(p,r,"0[quote]1[quote]2[quote]3[/quote][/quote]4[/quote]5[/quote]6"));
    console.log(includable_tags(p,r,"[quote]0[quote]1[quote]2[quote]3[/quote]4[/quote]5[/quote]6"));

Автор: animegirl 13.7.2013, 23:10

В вашем примере выводятся 2 ошибки, которые неприемлемы логике вложеных тэгов, а именно в примерах

Код


console.log(includable_tags(p,r,"0[quote]1[quote]2[quote]3[/quote][/quote]4[/quote]5[/quote]6"));
console.log(includable_tags(p,r,"[quote]0[quote]1[quote]2[quote]3[/quote]4[/quote]5[/quote]6"));

там выдаётся

Код


0<div class="quote_div">1<div class="quote_div">2<div class="quote_div">3[/quote]</div>4</div>5</div>6
<div class="quote_div">0<div class="quote_div">1<div class="quote_div">2[quote]3</div>4</div>5</div>6

хотя должно выглядеть так:

Код


0<div>1<div>2<div>3</div></div>4</div>5[/quote]6
[quote]0<div>1<div>2<div>3</div>4</div>5</div>6

Добавлено через 1 минуту и 25 секунд
Так в итоге, как переделать строку
/\[quote](.*?)\[\/quote\]/igm,
что бы там по середине исключалось открывание тэга [цитата]?

Автор: Arantir 13.7.2013, 23:14

Цитата(animegirl @ 13.7.2013, 21:59

)

while(text !== old_text);

Это бы прокатило и с обычным вариантом:

Код


/\[quote\](.*)\[\/quote\]/igm

Просто с ним бы заменяло снаружи внутрь, а у Вас изнутри наружу. Мой вариант ищет крайние внешние, а Ваш - самые внутренние (которые без вложений).
В обоих случаях постоянная замена в конце концов все позаменяет.

Мой вариант с рекурсией лишь не ищет в лишнем тексте и не сравнивает его весь целиком.

Цитата(animegirl @ 13.7.2013, 21:59

)

/\[quоte\](^[\[quоte\]])\[\/quоte\]/igm

Код


/\[quote\]([^\[quote\]])*\[\/quote\]/igm

без опечаток smile

Добавлено через 9 минут и 7 секунд

Цитата(animegirl @ 13.7.2013, 22:10

)

В вашем примере выводятся 2 ошибки, которые неприемлемы логике вложеных тэгов

Ну, вообще-то, после парсинга это уже не теги, а просто буковки в HTML-коде.

Цитата(animegirl @ 13.7.2013, 22:10

)

хотя должно выглядеть так

В любом случае скрипт не может наверняка узнать, в каком именно месте пропущен тег.
А что, если я пропустил его перед тройкой, а не перед ноликов, и так как у Вас быть не должно? =)

Да и вообще:

Код


code_to_html(text);
var match = (new RegExp('\\[/?quote\\]', 'gim')).exec(text);
if (match != null)
    alert("У вас наден потеряный тег quote. Проверьте разметку");

Автор: animegirl 13.7.2013, 23:33

Arantir,

Код


/\[quote\]([^\[quote\]])*\[\/quote\]/igm

приводит к той ошибке, что внутрений тэг меняется, а последующие внешние - нет.
там надо сделать "не тэг цитаты И чтоб хотя бы один знак любой"

Добавлено через 13 минут и 25 секунд
Arantir,
Готово, спасибо за пинание извилин в правильном направление ;)

f

Код


unction code_to_html(text)
    {
    var old_text = null;
    do
        {
        old_text = text;
        search = new Array(
            /\[quote\]([^\[quote\]])(.*?)\[\/quote\]/igm
            );
        
        replace = new Array(
           "<div class=\"quote_div\">$1$2</div>"
            );
        
        for(i = 0; i < search.length; i++)
            {
            text = text.replace(search[i],replace[i]);
            }
        }
    while(text !== old_text);
    
    return text;
    }

Логика регулярок для меня всё равно остаётся на уровне бизона хигинса, но задача выполняется как надо )

Автор: animegirl 14.7.2013, 03:09

Пытаюс добавить туда отказ обработки пустых цитат, на ум пришло сделать так:

Код


/\[quote\]([^\[quote\]]|^[.*]^[^<div.*>.*<\/div>]*?$|.*?)\[\/quote\]/igm

но на деле не работает (

Автор: ksnk 14.7.2013, 08:58

animegirl, Парсинг bb - не самая простая задача. Для сложных вложенных тегов с параметрами, вообще говоря - комплектом регулярок не решается. Обычно, такое делается, используя "автомат со стеком". Выедается открывающий тег, укладывается на стек, когда встречается закрывающий тег - со стека берется последний открытый и с этой парой уже идет трансформация...
На phpclub (внезапно? smile

) возникла тема про Bb коды. Там проскакивала ссылка на http://sadex.p.ht/viewtopic.php?id=140. Действительно простой. Возможно, даже излишне, сложных параметров не понимает, но это несложно исправить. В качестве варианта парсера вполне пригоден.

Другое дело, нужен ли парсер на JS или его уместнее делать на сервере?

Автор: Arantir 14.7.2013, 08:59

Иногда проще разбить сложную задачу на подзадачи. У пользователей компы не бесконечно мощные, пожалейте их немножко smile

Можно перед обработкой просто удалять все пустые \[quote\].
Заменять

Код


/\[quote\]\s*\[\/quote\]/igm

пустой строкой

А что останется - уже парсить в HTML.

Добавлено через 8 минут и 11 секунд

Цитата(ksnk @ 14.7.2013, 07:58

)

Выедается открывающий тег, укладывается на стек, когда встречается закрывающий тег - со стека берется последний открытый и с этой парой уже идет трансформация...

Да, кстати, во многих форумных движках так и делается.

Цитата(ksnk @ 14.7.2013, 07:58

)

Другое дело, нужен ли парсер на JS или его уместнее делать на сервере?

Может это просто WYSIWYG. В том числе, способ разгрузить сервер.
А раз не сервер - сверхэффективный алгоритм делать не обязательно.

Автор: animegirl 14.7.2013, 18:28

Цитата(ksnk @ 14.7.2013, 08:58)

Нужен на JS, причины:
- сервер передаёт данные один раз в том же виде, что юзер их отправлял
- то что показывается юзеру, это уже переделанное на ХТМЛ, но исходники остаются в памяти, что бы в случае цитаты, их сразу можно было вставить, иначе же прядётся ещё более сложными регулярками их парсить обратно
- Страница сайта полностью на JS и не перегружается, гонять несколько раз данные, чтоб сначала уже в ХТМЛ а для правки ещё раз в ББкоде -> траффик
- С одной стороны да - мы грузим бруазер юзеру, с другой разгружаем свои сервера лишней работой.

Добавлено через 14 минут и 44 секунды

Цитата(Arantir @ 14.7.2013, 08:59

)

Можно перед обработкой просто удалять все пустые

В том то и проблема, что они могут быть не пустыми, я скорее о такой конструкции:

Код


1[quote][quote]3[/quote][/quote]5

То есть, после первой замены внутренней цитаты, там в строке будет див, тем самым внешняя цитата по логике регулярки пустой не будет, а мне надо, чтоб она игнорировалась, в связи с тем, что кроме самих цитат внутри, там пустота вокруг.

Автор: ksnk 14.7.2013, 19:09

Для таких случаев проще мскать и менять именно такие двойные комбинации: 2x открытые+ 2x закрытые .

А есть ли смысл менять именно квотирование? Может так и надо, типа это ответ на ответ с квотированием?

Автор: Arantir 14.7.2013, 19:15

Цитата(animegirl @ 14.7.2013, 17:28

)

я скорее о такой конструкции

Тогда добавьте третью регулярку:

Код


/(\[\/?guote\]){2,}/

с заменой на $1
и вот это

Код


1[quote][quote]3[/quote][/quote]5
1[quote][quote][quote]3[/quote][/quote][/quote]5
1[quote][quote][quote][quote][quote]3[/quote][/quote][/quote][/quote][/quote]5

превратится в это

Код

1[quote]3[/quote]5
1[quote]3[/quote]5
1[quote]3[/quote]5

А для морального удовлетворения вынести подобные регулярки в функцию cleanup() и вызывать ее перед code_to_html() =)

Автор: animegirl 14.7.2013, 19:16

ksnk,
Так там не будет двойных, там в итоге внутри будет уже див, см. выше рекурсивность из внутри наружу будет идти. А менять двойные не выход, ведь текст может быть либо до либо после.

По-поводу второго пункта, цитирование цитаты это как бы то, что мы добивались вчера, и это устраивает, но предполагается, что человек не будет составлять весь свой пост из банального цитирования, а тем более, что цитирующий будет цитировать пост состоящий тупо из цитирования. В довесок, эти все извращения делаются только для безымянного цитирования, в цитирование с указанием автора, я так свирепствовать не буду )

Добавлено через 2 минуты
Arantir,
А во что тогда превратится такое:

Код


1[quote][quote]3[/quote]4[/quote]5

Добавлено через 3 минуты и 47 секунд
Я уже не плохо себе голову поломала над этими всеми вариантами, варианты, я продумала досконально, мне бы теперь регулярку подправить как надо, а не по новой передумывать как сделать, у меня почему-то детект дива с атрибутами и текстом не работает (, а именно вот этот момент в регулярке:

/\[quote\]([^\[quote\]]|^[.*]^[^<div.*>.*<\/div>]*?$|.*?)\[\/quote\]/igm,

Добавлено через 5 минут и 17 секунд
Русским языком примерно так:
Ничего не делать, если попадается внутри [цитата], так же ничего не делать если попадается внутри див с атрибутами но без текста по бокам, преобразовывать, только если внутри любой другой текст.

Автор: AVA12 14.7.2013, 22:05

Угу. "Now they have two problems".

Пытаться распарсить произвольные вложенные теги с помощью единственного регвыра - задача изначально обреченная. Обязательно найдется пример, способный сломать самый хитрозакрученный регвыр. И как быть, если юзер ввел некорректный текст (например, закрыл теги не в том порядке)? Так что только синтаксический анализатор, как подсказывает ksnk.

Автор: animegirl 14.7.2013, 22:09

Цитата(AVA12 @ 14.7.2013, 22:05

)

И как быть, если юзер ввел некорректный текст (например, закрыл теги не в том порядке)?

Пытаюсь представить вариант, в голове, но не получается понять, о чём вы, можно пример?

Автор: ksnk 14.7.2013, 23:04

пример неправильного форматирования?

Код


[quote=AnonimUser time="12/12/12 11:11:11"] [b ][i] Some text [/quote]
some more text [b ] bold[/b]

в этом случае (при квотировании потерян b и i) При этом регулярки сделают болдом весь квотированный текст, что, наверное, правильно, но и текст после него, что видимо, неправильно.

При "обычном" (в моем понимании smile

) парсинге несложно откорректировать неправильно закрытые теги (просто добавив закрывающие и игнорировав непарные закрывающие). При желании, можно отдать юзеру для корректировки с указанием места неправильного форматирования.
Если парсить регулярками, и откорректировать и диагностировать ошибки затруднительно. Нужно писать дополнительные регулярки, как с пустым квотированием ...

Автор: animegirl 14.7.2013, 23:07

Цитата(ksnk @ 14.7.2013, 23:04

)

Прочитала - не поверила, запихнула в своё форму, прогнала - как я и предполагала, регулярка их просто игнорирует, так как нету закрывающих тэгов

Добавлено через 2 минуты и 33 секунды

Цитата(ksnk @ 14.7.2013, 23:04

)

При "обычном" (в моем понимании ) парсинге несложно откорректировать неправильно закрытые теги (просто добавив закрывающие и игнорировав непарные закрывающие). При желании, можно отдать юзеру для корректировки с указанием места неправильного форматирования.Если парсить регулярками, и откорректировать и диагностировать ошибки затруднительно. Нужно писать дополнительные регулярки, как с пустым квотированием ...

Вы переоцениваете мою прогибчивость перед юзером. У меня политика такова: Неправильно использовал, увидишь косячную прорисовку - задумаешься, отредактируешь, будет выглядеть нормально. Я же всё-таки не няньку юзеру программирую.

Добавлено через 6 минут и 47 секунд
Из выше написанного прямо вытекает: Моя задача продумать прорисовку, косяки юзер пускай исправляет сам.

Задумалась. Ок, да отслеживание с дивами, это я походу всё-таки в няньку ударилась, но тут скорее возможность именно того, что юзер заквотит другого юзера, который скосячил. Как-то так.

Да и вообще, дискуссия ушла от темы слишком далеко, как мне конкретную вещь отловить регуляркой? А именно:

Код


НЕ <div class=\"quote_div\">$1</div>

ну, чтоб так же работало как с

Код


[^\[quote\]]

Автор: animegirl 26.7.2013, 20:53

Моя эпопея не закончена, оставила лазейки для XSS, надо бы заделать.
Было

Код


/\[img\](*?)\[\/img\]/igm,

сделала

Код


/\[img\]([^"']|.*?)\[\/img\]/igm,

Текст такого вида:

Код


[img]http://a2.rimg.info/69cbed426ec968b7b1f010770d015bc3.gif" onclick="alert('dfg');[/img]

Удачно отсеивается, а вот

Код


[img]" onclick="alert('dfg');[/img]

делает своё гадкое дело. (

Не могу понять, почему не работает отрицание. Можете подправить?

Автор: Arantir 26.7.2013, 23:21

Цитата(animegirl @ 26.7.2013, 19:53

)

Не могу понять, почему не работает отрицание.

Цитата(animegirl @ 26.7.2013, 19:53

)

([^"']|.*?)

По русски:
ИЛИ [что угодно, кроме кавычек], ИЛИ [все что угодно]

Запихивая туда текст с кавычками, конечно же, побеждает вторая половинка выражения.
Вероятно, имелось ввиду

Код

([^"']*?)

так как [^"'] - это уже "любой символ кроме этих двух".