Модераторы: Rickert
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Интеллектульный выбор кодировок 
:(
    Опции темы
dereyly
Дата 3.1.2007, 14:33 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Бывалый
*


Профиль
Группа: Участник
Сообщений: 217
Регистрация: 16.6.2006

Репутация: 2
Всего: 4



Незнаю там ли я тему разместил... первая часть вопроса точно не сюда... а остольное....
Все сталкивались с тем что браузер получает неправильное указание по применению кодировок к html странице, и она выдает какую-то хрень... по-моему название может отображаться праильно, а текст нет...

1й вопрос (не в эту тему): может ли мультиязыковая кодировка также глючить из-за криворукости создателей html страницы. Сталкивались ли вы с этим (допустим немецко-русская страница)?

2й: 
-) как организовать проверку принадлежности данного слова языку кодировке? 
-) насколько больший словарь нужен для этого?
-) как выбирать слова для словаря 10 случайных из всего текста?
-) попытаться сделать словарь коротких слов 2-4, который включает предлоги, слова, с помощью которых можно определить принадлежность к языку, к кодировке? Но тут сразу же возникает вопрос о скорости, так как нужно проводить поиск по тексту для нахождения слов из 2-4 букв. 

Кто что думает по этому поводу... и вообще стоит ли заморачиваться?

PM MAIL   Вверх
dereyly
Дата 7.1.2007, 14:46 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Бывалый
*


Профиль
Группа: Участник
Сообщений: 217
Регистрация: 16.6.2006

Репутация: 2
Всего: 4



Ну еще вопрос на похожую тематику который меня беспокоит(может на него есть ответ)

Как вырезать произвоильный текст из html страницы... те на странице сожержится название статьи и сама статья и куча хрени.... 
это какая то из подзадач краулера для индексации текста страницы... игнорируя ненужную информацию какая инф считается ненужной исходя из html кода

Это сообщение отредактировал(а) dereyly - 7.1.2007, 14:48
PM MAIL   Вверх
arilou
Дата 10.1.2007, 19:58 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Великий МунаБудвин
****


Профиль
Группа: Экс. модератор
Сообщений: 2646
Регистрация: 15.7.2004
Где: город-герой Минск

Репутация: 6
Всего: 61



Цитата(dereyly @  7.1.2007,  14:46 Найти цитируемый пост)
Как вырезать произвоильный текст из html страницы...

dereyly, регулярками вырезать тэги, а то, что останется пропустить через full-text indexing. Грязно, но может такой вариант подойдет?


--------------------
user posted imageuser posted image
PM WWW ICQ   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Программирование игр, графики и искуственного интеллекта"
Rickert

НА ЗЛОБУ ДНЯ: Дорогие посетители, прошу обратить внимание что новые темы касающиеся новых вопросов создаются кнопкой "Новая тема" а не "Ответить"! Любые оффтопиковые вопросы, заданные в текущих тематических темах будут удалены а их авторы, при рецедиве, забанены.

  • Литературу, связанную с программированием графики, обсуждаем здесь
  • Действия модераторов можно обсудить здесь
  • С просьбами о написании курсовой, реферата и т.п. обращаться сюда
  • Вопросы связанные с программированием графики и мультимедии на языках С++ и Delphi
  • Вопросы по реализации алгоритмов рассматриваются здесь

Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, Rickert.

 
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Программирование игр, графики и искусственного интеллекта | Следующая тема »


 




[ Время генерации скрипта: 0.0823 ]   [ Использовано запросов: 20 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.