Модераторы: korob2001, ginnie
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> определить язык страницы 
:(
    Опции темы
fafl
Дата 1.11.2009, 04:35 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 2
Регистрация: 1.11.2009

Репутация: нет
Всего: нет



народ, возникла интересная задача. Допустим получили мы через lwp содержимое страницы по адресу. Как определить основной язык страницы? (ну допустим en, ru, de...)
PM MAIL   Вверх
Itsys
Дата 1.11.2009, 08:10 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Завсегдатай
Сообщений: 1338
Регистрация: 21.1.2008
Где: г. Москва

Репутация: нет
Всего: 34



А чего интересного... Пиши простейший лингвистический анализатор - на каждый язык словарь побольше, проверяешь количество вхождений слов на странице в каждый словарь и на основе этого принимаешь решение о том, на каком яхыке текст.

Чем объемнее будут словари - тем точнее результат. Для грубого подсчета можно составить словарь из из предлогов.

Добавлено через 34 секунды
ЗЫ сам алгоритм подсчета элементарный
PM MAIL WWW Skype   Вверх
fafl
Дата 1.11.2009, 11:39 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 2
Регистрация: 1.11.2009

Репутация: нет
Всего: нет



так вариант я уже продумывал.  но хотелось бы получить более простое и элегантное решение. а главное, более быстрое.
PM MAIL   Вверх
Itsys
Дата 1.11.2009, 14:35 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Завсегдатай
Сообщений: 1338
Регистрация: 21.1.2008
Где: г. Москва

Репутация: нет
Всего: 34



Мог бы перед тем, как задавать вопрос, поискать на CPAN, и найти, например модуль Text::Language::Guess
PM MAIL WWW Skype   Вверх
DaemonSuw
Дата 2.11.2009, 18:14 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Бывалый
*


Профиль
Группа: Участник
Сообщений: 155
Регистрация: 11.3.2008

Репутация: нет
Всего: 3



Lingua::DetectCyrillic - я думаю если вы допишите его никто не будет против... вроде знает 3 языка русский, украинский, английский
PM MAIL ICQ   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Perl: CGI программирование"
korob2001
sharq
  • В этом разделе обсуждаются вопросы относящиеся только к CGI программированию
  • Если ваш вопрос не относится к системному или CGI программированию, задавайте его в общем разделе
  • Если ваш вопрос относится к системному программированию, задавайте его здесь
  • Интерпретатор Perl можно скачать здесь ActiveState, O'REILLY, The source for Perl
  • Справочное руководство "Установка perl-модулей", качать здесь


Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, korob2001, sharq.

 
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Perl: разработка для Web | Следующая тема »


 




[ Время генерации скрипта: 0.0595 ]   [ Использовано запросов: 22 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.