![]() |
Модераторы: Illuminaty |
![]() ![]() ![]() |
|
MoebiusCat |
|
|||
Новичок Профиль Группа: Участник Сообщений: 46 Регистрация: 5.1.2011 Репутация: нет Всего: нет |
Сразу оговариваюсь - в HTML ничего не смыслю, сегодня спервые столкнулась. Надобность возникла по работе. Работаю разработчиком алгоритмов по обработке текста, а тут возникла проблема с извлечением этого самого текста...
Обычно в HTML странице есть некая область, где состредоточена вся полезная информация - см. картинки: ![]() ![]() "Вручную" её видно очень хорошо. А можно ли сделать то же автоматически? У нас в компании умеют делать это для сайтов вроде того, который на сторой картинке (агентства новостей, например), но не для произвольного сайта. Вопрос - что человечество знает по этой теме? Где можно почитать, посмотреть код? У меня ещё была такая мысль. Эта самая информативная часть страницы находится примерно посередине (геометрически). Можно ли эффективно извлекать из HTML информацию, в какой части экрана появится та или иная надпись, и можно ли этим эффективно пользоваться для моей задачи? Ещё я так поняла, что HTML страница состоит из этаких клеток, как таблица. Если извлечь структуру этих клеток вместе с их размерами, думаю, можно будет найти закономерность, которая из клеток содержит информацию, а которые - рекламу, ссылки, и т.п. Заранее благодарна. Прошу прощения, если вопрос глупый. |
|||
|
||||
Temp |
|
|||
![]() Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 577 Регистрация: 12.1.2003 Репутация: нет Всего: -3 |
не совсем понятно что вам нужно сделать? куда вы хотите текст извлекать? -------------------- <удалено администрацией> |
|||
|
||||
Arantir |
|
|||
Рыбак без удочки ![]() ![]() Профиль Группа: Участник Сообщений: 960 Регистрация: 18.11.2012 Репутация: 5 Всего: 55 |
Какая интересная интерпретация понимания работы HTML-страниц =) Попробуйте в браузере ПКМ - Показать исходный код. Там любой текст в чистом виде, разве что между тегами. И, как мне кажется, из текстового файла его вытянуть уж точно попроще, чем с уже визуализированной страницы. Но все равно слишком абстрактно и даже как-то сюрреалистично Вы описали... Не думаю, что я до конца понял то, что вы хотели сказать. Попробуйте как-то конкретизировать саму задачу, чтобы без всяких догадок. -------------------- interface Жопа { // ATTENTION: has to be implemented by every class of the project for proper project work } |
|||
|
||||
![]() ![]() ![]() |
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей) | |
0 Пользователей: | |
« Предыдущая тема | Вёрстка веб-сайтов | Следующая тема » |
|
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности Powered by Invision Power Board(R) 1.3 © 2003 IPS, Inc. |