Модераторы: korob2001, ginnie
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Текст, и языки мира 
:(
    Опции темы
Bulat
Дата 13.9.2007, 15:51 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


татарский Нео
***


Профиль
Группа: Завсегдатай
Сообщений: 1701
Регистрация: 22.3.2006
Где: Альметьевск

Репутация: 5
Всего: 57



Постановка задачи проста, нужно определить на каком языке исходный текст.

В голове крутится один корявый способ, но более пока ничего... smile 


--------------------
менеджер по кодеврайтингу  smile 
PM MAIL WWW   Вверх
tishaishii
Дата 13.9.2007, 17:38 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Создатель
***


Профиль
Группа: Завсегдатай
Сообщений: 1262
Регистрация: 14.2.2006
Где: Москва

Репутация: 4
Всего: 8



А если на тарабарском и в тарабарском традиционном письме?
В общем случае - ни как. Можно для каждого языка и наречия написать свой фильтр.
PM MAIL ICQ Skype   Вверх
Bulat
Дата 13.9.2007, 17:43 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


татарский Нео
***


Профиль
Группа: Завсегдатай
Сообщений: 1701
Регистрация: 22.3.2006
Где: Альметьевск

Репутация: 5
Всего: 57



tishaishii, ну речь о тарабарском не идет. Речь идет хотя бы об самых распространненых языках. Европейская группа языков, азиатская по возможности, и конечно же русский, украинский и т.п.
Цитата(tishaishii @  13.9.2007,  17:38 Найти цитируемый пост)
Можно для каждого языка и наречия написать свой фильтр. 

А ссылки или маны есть. Или по подробнее об этом


P.S. По сути дела речь не идет о всех существующих языках, но хотя бы более или менее распространенные.


--------------------
менеджер по кодеврайтингу  smile 
PM MAIL WWW   Вверх
vadiml
Дата 14.9.2007, 22:33 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 310
Регистрация: 27.7.2007

Репутация: 5
Всего: 7



берутся словари нужных языков (напр. aspell), загоняются в базу или несколько хешей и по ним сличаются слова на наличие (на вхождение), 
С каким языком больше совпадений ...

чем больше слов -- тем точнее результат

есть одно НО -- в некоторых языках одну заковыристую букву могут обозначать 2-3 обычными буквами, например в немецком ss очень часто означает ß (но не всегда smile )
поэтому желательно иметь словари со всеми вариациями написания
--
Есть еще один вариант -- посмотреть исходный код программы xneur  ( http://xneur.ru/ )
там создаются словари недопустимых сочетаний (для 6 языков уже есть в программе)
Такие словари получаются гораздо меньше размером, но если текст, на основе которого создается словари, мал, то будет много ошибок (похоже такая ситуация возникнет в v.0.8 с казахским языком, Андрей, который сейчас ведет эту программу, говорил что ему прислали всего 40+ КВ текста, а желательно 1-2 МВ, хотя может уже положение и исправили)

PM MAIL Jabber   Вверх
amg
Дата 18.9.2007, 06:28 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Завсегдатай
Сообщений: 1145
Регистрация: 3.8.2006
Где: Новосибирск

Репутация: 38
Всего: 50



Цитата(Bulat @  13.9.2007,  15:51 Найти цитируемый пост)
Постановка задачи проста, нужно определить на каком языке исходный текст.
Lingua::Identify и подобные модули.

PM MAIL   Вверх
Bulat
Дата 1.10.2007, 14:53 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


татарский Нео
***


Профиль
Группа: Завсегдатай
Сообщений: 1701
Регистрация: 22.3.2006
Где: Альметьевск

Репутация: 5
Всего: 57



amg, уже заюзал, и не один, правда они чуток косячные... В итоге все свелось к он-лайн переводчику гугла, через проксю, работает не так быстро, но зато без косяков, по крайней мере пока smile Да и перевод у гугла лучше, чем у Бабелфиша, вроде большинство подобных модулей работают с ним smile


--------------------
менеджер по кодеврайтингу  smile 
PM MAIL WWW   Вверх
shamber
Дата 2.10.2007, 07:44 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Завсегдатай
Сообщений: 1422
Регистрация: 5.9.2006
Где: Россия

Репутация: 17
Всего: 18




 smile 
Bulat, всякие там людишки, писали, что Google в скором времени картиночку введут, так что готовися smile
 smile 
PM MAIL Jabber   Вверх
Bulat
Дата 2.10.2007, 09:07 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


татарский Нео
***


Профиль
Группа: Завсегдатай
Сообщений: 1701
Регистрация: 22.3.2006
Где: Альметьевск

Репутация: 5
Всего: 57



shamber, это даже хорошо, а то знаешь ли, сниффер + перл + чуть-чуть мозгов, и даже скучно становится. Мой модуль с он-лайн переводчиком гугла строк 20, может 30 занимает... А так хоть какое разнообразие smile


--------------------
менеджер по кодеврайтингу  smile 
PM MAIL WWW   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Perl"
korob2001
sharq
  • В этом разделе обсуждаются общие вопросы по языку Perl
  • Если ваш вопрос относится к системному программированию, задавайте его здесь
  • Если ваш вопрос относится к CGI программированию, задавайте его здесь
  • Интерпретатор Perl можно скачать здесь ActiveState, O'REILLY, The source for Perl
  • Справочное руководство "Установка perl-модулей", можно скачать здесь


Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, korob2001, sharq.

 
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Perl: Общие вопросы | Следующая тема »


 




[ Время генерации скрипта: 0.0731 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.