![]() |
Модераторы: Rickert |
![]() ![]() ![]() |
|
dereyly |
|
|||
Бывалый ![]() Профиль Группа: Участник Сообщений: 217 Регистрация: 16.6.2006 Репутация: 2 Всего: 4 |
Незнаю там ли я тему разместил... первая часть вопроса точно не сюда... а остольное....
Все сталкивались с тем что браузер получает неправильное указание по применению кодировок к html странице, и она выдает какую-то хрень... по-моему название может отображаться праильно, а текст нет... 1й вопрос (не в эту тему): может ли мультиязыковая кодировка также глючить из-за криворукости создателей html страницы. Сталкивались ли вы с этим (допустим немецко-русская страница)? 2й: -) как организовать проверку принадлежности данного слова языку кодировке? -) насколько больший словарь нужен для этого? -) как выбирать слова для словаря 10 случайных из всего текста? -) попытаться сделать словарь коротких слов 2-4, который включает предлоги, слова, с помощью которых можно определить принадлежность к языку, к кодировке? Но тут сразу же возникает вопрос о скорости, так как нужно проводить поиск по тексту для нахождения слов из 2-4 букв. Кто что думает по этому поводу... и вообще стоит ли заморачиваться? |
|||
|
||||
dereyly |
|
|||
Бывалый ![]() Профиль Группа: Участник Сообщений: 217 Регистрация: 16.6.2006 Репутация: 2 Всего: 4 |
Ну еще вопрос на похожую тематику который меня беспокоит(может на него есть ответ)
Как вырезать произвоильный текст из html страницы... те на странице сожержится название статьи и сама статья и куча хрени.... это какая то из подзадач краулера для индексации текста страницы... игнорируя ненужную информацию какая инф считается ненужной исходя из html кода Это сообщение отредактировал(а) dereyly - 7.1.2007, 14:48 |
|||
|
||||
arilou |
|
|||
![]() Великий МунаБудвин ![]() ![]() ![]() ![]() Профиль Группа: Экс. модератор Сообщений: 2646 Регистрация: 15.7.2004 Где: город-герой Минск Репутация: 6 Всего: 61 |
dereyly, регулярками вырезать тэги, а то, что останется пропустить через full-text indexing. Грязно, но может такой вариант подойдет? |
|||
|
||||
![]() ![]() ![]() |
Правила форума "Программирование игр, графики и искуственного интеллекта" | |
|
НА ЗЛОБУ ДНЯ: Дорогие посетители, прошу обратить внимание что новые темы касающиеся новых вопросов создаются кнопкой "Новая тема" а не "Ответить"! Любые оффтопиковые вопросы, заданные в текущих тематических темах будут удалены а их авторы, при рецедиве, забанены.
Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, Rickert. |
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей) | |
0 Пользователей: | |
« Предыдущая тема | Программирование игр, графики и искусственного интеллекта | Следующая тема » |
|
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности Powered by Invision Power Board(R) 1.3 © 2003 IPS, Inc. |