VPF::Сделать парсер-генератор кода страницы

JSman

Дата 26.8.2006, 00:09 (ссылка)

(нет голосов)

Загрузка ...

Опытный

Профиль
Группа: Участник
Сообщений: 279
Регистрация: 10.7.2006

Репутация: нет
Всего: 4

давай определяться. накидаем общий план. будем конкретней.
этапы чуть изменил.

я ПРЕДЛАГАЮ:
1 этап: разделение на логические части.
полностью убираем из страницы банеры и комментарии (по желанию пользователя).
затем убираем inline-стили, inline-script. в случае стилей - создаем классы, в случае скриптов - привязка по ID. после разделения проверяем страницу на выполнение скриптов. если без ошибок, то все ok. если все-таки скрипт привязали к иерархии, то чуть-чуть сложнее. тогда иерархию не будем трогать.

итак, первый этап как реализуется.
с помощью JSCRIPT проходим по нодам.
1) убираем атрибуты, имеющие аналогичное значение на CSS, типа как CELLPADDING, CELLSPACING тэга TABLE.
2) создаем классы из инлайн-стилей
3) убираем инлайн-скрипты
4) закрываем незакрытые тэги.
5) приводим тэги согласно XML ( <br /> <img />), разбираемся с перекрываемостью. тем самым, избавляем страницу от ошибок.
6) убираем лишний контент: комментарии, в CSS свойства, начинающиеся на mso-... ( - от MsWord)

что имеем после 1го этапа?
3 строго отдельных части: STYLE, SCRIPT, BODY
иерархия пока не изменена.

2 этап - думаю, что лучше будет, разбирать последовательности тэгов и стилей. это и есть анализатор.

сложно, очень сложно..
тут в первую очередь надо определиться с самой версткой. подумаем над каждым элементом. тело документа будет состоять из
1) блоков (DIV)  роль блоков - позиционирование (мне кажется только это, если нет поправь меня, + AJAX?)
2) таблицы
3) текстовые элементы: заголовки 6 уровней, параграфы
      в параграфы входят
  а) списки
  б) strong, i (хотя от него отказались W3C) и span (для особых стилей)
  в) анкоры и ссылки
4) инлайн-фреймы.

каждый элемент должен выполнять строго отведенную ему роль.
сначала меняем лишние тэги (например, u на span с классом), неудовлетворяющие нас.
это была подготовка.

тут нужно понять,  что нужно пользователю. варианты:
1. упростить структуру тэгов, не изменив отображение (вид) (или в допустимых рамках).
2. сделать текст читабельным, а сам дизайн - приятным на глаз
3. выделить полезное содержание

в случае 2го варианта, нужны заранее созданные стили + избавиться от горизонтальной прокрутки полностью (или учитывать исключения)

1й вариант сложноватый.
что мы имеем.. до фига тэгов с классами. цель - возможное их сокращение и приведение по правилам нашей верстки.
1) надо рассмотреть общее содержимое классов дочерних тэгов одного уровня в иерархии и объединить их.
2) очень часто при создании в редакторах разработчики по нелепости могут выделить часть текста другим похожим шрифтом на должный. надо убирать лишние шрифты.
3) тоже самое относится к выбору цвета.

пока все было по исправлению верстки.. теперь по теме

3й вариант. добывание полезной информации.. -
полезность -  понятие относительное!
я думаю , что лучший подход будет таков:
пользователь выделяет мышкой тот контент, который ему нужен. те, прямоугольники, которые не попали, обрабатывать/вносить в заключительную верстку не будем.
если несколько страниц с одного сайта и изначальная верстка хоть как-то соответствует шаблону, то программа может "учиться". по примеру 1-2х страниц, работать над остальной частью.

мой вывод: без воли пользователя не обойтись. пользователь должен делать ставку на полезность. нужны ли ему картинки с логотипом сайта вверху страницы или основное содержание, банеры и ActiveX и прочее

12345c

Дата 26.8.2006, 12:04 (ссылка)

(нет голосов)

Загрузка ...

Круглый

Профиль
Группа: Vingrad developer
Сообщений: 2018
Регистрация: 26.12.2005
Где: наша не пропадала ?

Репутация: 57
Всего: 101

Цитата(Sardar @ 24.8.2006, 20:53

)

итата(12345c @ 24.8.2006, 17:04 )
Вчера, например, по задаче синтеза html придумал такую вещь, как встраивание кода в шаблон, чтобы потом его исполнять в циклах по eval().
И что это получилось? Браузер сам может без всяких eval выполнить код в странице, зачем каким то путём доставать верстку со скриптами в переменную, из которой затем вырезать скрипты и выполнять как в шаблонизаторе?

Понадобилось выполнять цикл, включающий фрагмент кода, размещённый в шаблоне. Поэтому вызываю функцию с текстом-кодом. Теперь осталось выявить закономерности в используемых шаблонах, чтобы выработать компактную функцию. Цель в том, чтобы шаблон смотрелся наглядно и естественно, примерно как математический знак суммы.

Цитата(Sardar @ 24.8.2006, 20:53

)

Если у тебя есть справочник, то ты должен задать его структуру

Конечно, я ориентируюсь на реальные задачи. Сначала задаю структуру, потом запускаю распознаватель. По результатам джб видно, удачна структура или нет. Но в распознаватель надо включить постоянные процедуры типа игнорирования пробелов, чтобы не прописывать каждый раз их явно. Тогда распознавателем будет удобно пользоваться, и, кроме того, он будет показывать ошибки и отклонения от структуры.

Результаты первого действия выложу в другую тему после того как напишу.

Добавлено @ 12:07

Цитата(Sardar @ 24.8.2006, 20:53

)

Резюмирую: какова задача? Я пока вижу три направления:
анализатор по шаблону -

это первое направление

12345c

Дата 26.8.2006, 12:55 (ссылка)

(нет голосов)

Загрузка ...

Круглый

Профиль
Группа: Vingrad developer
Сообщений: 2018
Регистрация: 26.12.2005
Где: наша не пропадала ?

Репутация: 57
Всего: 101

Идея баннерорезки, которую вы тут развили - она тоже парсер с правилами, алгоритм может использоваться, но это обычно делают в прокси, не на JS.

Хотя, есть идея работать по DOM внутри сгенерированной страницы (процедура внедряется через прокси, если это в онлайне вырезают баннеры "на лету" или включается вручную строкой вызова скрипта, если идёт анализ страниц для извлекания информации по шаблону.
JSman, люди уже писали программы выбразывания мусора, сделанного в Frontpage. Если поискать по ресурсам программ, найдётся. Аналогичное должно существовать и для Word.

Но переверстать произвольный текст в правильный - сильно неопределённая задача. Нужно сначала проработат всю технику перевода (что невозможно по объёму исследования поддержки глюков разных версий бр-ров), потом расписывать строение анализатора. Упрощённая версия - ограничиваемся "каноническими" методами, которые тоже надо выделить из опыта правильной вёрстки, которые будут одинаково показываться в бр-рах. Но не исключено, что придёт новая версия и всё испортит.

Тут надо придерживаться работы по доктайпам, и, чтобы действие было признано сообществом, работа должна постоянно ссылаться на стандарты и понимать дух их развития. Если это будет, она может повлиять на выработку правильной вёрстки вообще, а так - одна из версий.

Из режимов я бы добавил к приятному на глаз ещё суперприятный на глаз smile

. Дельное предложение.
Приятность надо сначала вычислить формулой, потом написать операторы итераций, чтобы потом применить метод Рунге-Кутта smile

.

Но мне пока от анализатора нужно выделение информации из достаточно правильной и описанной вручную шаблонами структуры. Надобность анализатора пока только предполагается, а сейчас конкретные усилия идут на синтез кода из вручную выделенной информации.

В этом деле появилось ещё 1 направление (тоже опишу в отдельной теме) - вытащить часть вёрстки в JavaScript, чтобы брать её из кешированного скриптового файла. А то, что останется на HTML, должночитаться поисковиками и браузерами с отключённым JS.

Цитата(JSman @ 26.8.2006, 00:09

)

я думаю , что лучший подход будет таков:
пользователь выделяет мышкой тот контент, который ему нужен

Хороший вариант визуализации выбора контента. Правда, это уже 3-я часть программы, отдельный модуль. Изначально я предполагаю писать шаблон. Потом - подумать, как автоматизировать писание шаблона в визуальной оболочке.

Sardar

Дата 26.8.2006, 20:06 (ссылка)

(нет голосов)

Загрузка ...

Бегун

Профиль
Группа: Модератор
Сообщений: 6986
Регистрация: 19.4.2002
Где: Нидерланды, Groni ngen

Репутация: 78
Всего: 317