Модераторы: LSD, AntonSaburov
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Определения кодировки у текстового файла? 
:(
    Опции темы
unkis
Дата 5.11.2007, 17:02 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 802
Регистрация: 8.9.2004

Репутация: нет
Всего: 1



Ребята у меня такая вот проблема, есть на диске файлы в линуксе, надо определить в какой кодировке они сохранены.
Это обычные .txt, то есть никакой  информации в теле файла я не нашел.


У кого-нибудь есть какие-нибудь идеи как это реализовать на java?
Или если это можно реализовать средствами линукса тоге подойдет.


--------------------
www.unkis.com
PM MAIL WWW   Вверх
valiantsin
Дата 5.11.2007, 17:54 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 13
Регистрация: 25.10.2007

Репутация: нет
Всего: 1



Уважаемый ,
unkis, возможно вот этот код решит проблемму:
Код

         File fileToProceed = new File("путь к Вашему файлу");
         FileReader fileInput = new FileReader(fileToProceed);
         fileInput.getEncoding();
 
PM MAIL ICQ   Вверх
unkis
Дата 5.11.2007, 18:01 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 802
Регистрация: 8.9.2004

Репутация: нет
Всего: 1



спасибо но как-то странно, 
на все файлы которие я создал, будь-то utf-8 или ANSI, программа говорит Cp1252.

что-то здесь не правильно



--------------------
www.unkis.com
PM MAIL WWW   Вверх
Kangaroo
Дата 5.11.2007, 18:44 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


AA - Aussie Animal
****


Профиль
Группа: Участник Клуба
Сообщений: 2042
Регистрация: 7.10.2006
Где: US

Репутация: 21
Всего: 104



имхо, это:
Код

fileInput.getEncoding();

выведет не кодировку файла, а кодировку, которую использует FileReader.
А использует он кодировку по-умолчанию (если явно не указать другую).


--------------------
Lost....
PM MAIL MSN   Вверх
Alexandr87
Дата 5.11.2007, 18:49 (ссылка) |    (голосов:1) Загрузка ... Загрузка ... Быстрая цитата Цитата


дыкий псых
***


Профиль
Группа: Завсегдатай
Сообщений: 1459
Регистрация: 27.11.2004
Где: Алматы, Казахстан

Репутация: 9
Всего: 39



думаю стандратных средств нет, но
можно самому программку написать, которая будет это определять, просто методом перебора всех вероятных локалей. 
Полученный текст для данной локали, проверяется на соответсвие модели открытого текста русского языка (вероятностые характеристики отдельных символов, биграмм текста).

Это сообщение отредактировал(а) Alexandr87 - 5.11.2007, 18:59
PM Jabber   Вверх
unkis
Дата 5.11.2007, 18:58 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 802
Регистрация: 8.9.2004

Репутация: нет
Всего: 1



Цитата(Alexandr87 @  5.11.2007,  16:49 Найти цитируемый пост)
можно самому программку написать, которая будет это определять. 

Так что должна это программка делать, по какому принципу она будет определять в какой кодировке файл ?



--------------------
www.unkis.com
PM MAIL WWW   Вверх
Alexandr87
Дата 5.11.2007, 19:00 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


дыкий псых
***


Профиль
Группа: Завсегдатай
Сообщений: 1459
Регистрация: 27.11.2004
Где: Алматы, Казахстан

Репутация: 9
Всего: 39



unkis, выше посмотри, просто пока добавлял в пост, ты уже отписал.
и в линуксе была софтинка, для правильного определения кодировки русских тегов - rus-xmms (или как-то так?), можешь еще попробовывать посмотреть.

Это сообщение отредактировал(а) Alexandr87 - 5.11.2007, 19:04
PM Jabber   Вверх
jer1
Дата 5.11.2007, 23:23 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 123
Регистрация: 24.1.2005
Где: Харьков Украина

Репутация: 4
Всего: 5



http://trific.ath.cx/software/enca/   (бывает не все гладко, но тем не менее)
Цитата

Enca is an Extremely Naive Charset Analyser. It detects character set and encoding of text files and can also convert them to other encodings.





--------------------
:w!q
PM MAIL   Вверх
_Michael
Дата 6.11.2007, 10:23 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 375
Регистрация: 23.6.2007
Где: з полонини

Репутация: 2
Всего: 6



http://ru.wikipedia.org/wiki/%D0%AE%D0%BD%....82.D0.BE.D0.B2
Вот здесь пишет о Юникоде. Если в начале файла есть хоть одна из указанных сигнатур, значит однозначно файл в том Юникоде, который соответсвует присутсвующей сигнатуре. Если ж в начале файла етого нету, а сразу идет текст, то надо тогда пользоваться как выразился 
Alexandr87 :
Цитата(Alexandr87 @  5.11.2007,  18:49 Найти цитируемый пост)
Полученный текст для данной локали, проверяется на соответсвие модели открытого текста русского языка (вероятностые характеристики отдельных символов, биграмм текста).

smile



--------------------
...не убивайся ни о чем - все временно,
хоть ночь темна но светлым днем беременна...

Саади
PM MAIL   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Java"
LSD   AntonSaburov
powerOn   tux
javastic
  • Прежде, чем задать вопрос, прочтите это!
  • Книги по Java собираются здесь.
  • Документация и ресурсы по Java находятся здесь.
  • Используйте теги [code=java][/code] для подсветки кода. Используйтe чекбокс "транслит", если у Вас нет русских шрифтов.
  • Помечайте свой вопрос как решённый, если на него получен ответ. Ссылка "Пометить как решённый" находится над первым постом.
  • Действия модераторов можно обсудить здесь.
  • FAQ раздела лежит здесь.

Если Вам помогли, и атмосфера форума Вам понравилась, то заходите к нам чаще! С уважением, LSD, AntonSaburov, powerOn, tux, javastic.

 
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Java: Общие вопросы | Следующая тема »


 




[ Время генерации скрипта: 0.0927 ]   [ Использовано запросов: 22 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.