Модераторы: Illuminaty
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Чистка HTML 
:(
    Опции темы
MoebiusCat
Дата 1.7.2013, 10:56 (ссылка)    | (голосов:1) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 46
Регистрация: 5.1.2011

Репутация: нет
Всего: нет



Сразу оговариваюсь - в HTML ничего не смыслю, сегодня спервые столкнулась. Надобность возникла по работе. Работаю разработчиком алгоритмов по обработке текста, а тут возникла проблема с извлечением этого самого текста...

Обычно в HTML странице есть некая область, где состредоточена вся полезная информация - см. картинки:
user posted image
user posted image

"Вручную" её видно очень хорошо. А можно ли сделать то же автоматически? У нас в компании умеют делать это для сайтов вроде того, который на сторой картинке (агентства новостей, например), но не для произвольного сайта. Вопрос - что человечество знает по этой теме? Где можно почитать, посмотреть код?

У меня ещё была такая мысль. Эта самая информативная часть страницы находится примерно посередине (геометрически). Можно ли эффективно извлекать из HTML информацию, в какой части экрана появится та или иная надпись, и можно ли этим эффективно пользоваться для моей задачи? Ещё я так поняла, что HTML страница состоит из этаких клеток, как таблица. Если извлечь структуру этих клеток вместе с их размерами, думаю, можно будет найти закономерность, которая из клеток содержит информацию, а которые - рекламу, ссылки, и т.п.

Заранее благодарна.
Прошу прощения, если вопрос глупый.


PM MAIL   Вверх
Temp
Дата 5.7.2013, 06:44 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 577
Регистрация: 12.1.2003

Репутация: нет
Всего: -3



Цитата

"Вручную" её видно очень хорошо. А можно ли сделать то же автоматически?

не совсем понятно что вам нужно сделать?
куда вы хотите текст извлекать?


--------------------
<удалено администрацией>
PM MAIL ICQ   Вверх
Arantir
Дата 5.7.2013, 07:02 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Рыбак без удочки
**


Профиль
Группа: Участник
Сообщений: 960
Регистрация: 18.11.2012

Репутация: 5
Всего: 55



Цитата(MoebiusCat @  1.7.2013,  09:56 Найти цитируемый пост)
У меня ещё была такая мысль. Эта самая информативная часть страницы находится примерно посередине (геометрически). Можно ли эффективно извлекать из HTML информацию, в какой части экрана появится та или иная надпись, и можно ли этим эффективно пользоваться для моей задачи? Ещё я так поняла, что HTML страница состоит из этаких клеток, как таблица. Если извлечь структуру этих клеток вместе с их размерами, думаю, можно будет найти закономерность, которая из клеток содержит информацию, а которые - рекламу, ссылки, и т.п.

Какая интересная интерпретация понимания работы HTML-страниц =)

Попробуйте в браузере ПКМ - Показать исходный код. Там любой текст в чистом виде, разве что между тегами. И, как мне кажется, из текстового файла его вытянуть уж точно попроще, чем с уже визуализированной страницы.


Но все равно слишком абстрактно и даже как-то сюрреалистично Вы описали... Не думаю, что я до конца понял то, что вы хотели сказать. 
Попробуйте как-то конкретизировать саму задачу, чтобы без всяких догадок.


--------------------
interface Жопа {
    // ATTENTION: has to be implemented by every class of the project for proper project work
}
PM   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Вёрстка веб-сайтов | Следующая тема »


 




[ Время генерации скрипта: 0.0620 ]   [ Использовано запросов: 20 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.