Поиск:

Ответ в темуСоздание новой темы Создание опроса
> [encodings] Âåðíàäñêîå ÎÑÁ, как с этим бороться.... 
:(
    Опции темы
scai
Дата 28.4.2009, 12:30 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Неофит
*


Профиль
Группа: Участник
Сообщений: 122
Регистрация: 20.1.2007
Где: г. Загорск

Репутация: нет
Всего: 2



Может веткой ошибся.... Подскажите, все думаю сталкивались с такой мутью...
Код

 ;,Âåðíàäñêîå ÎÑÁ 


hex dump:
Код

00000070  3b 2c 20 c3 82 c3 a5 c3  b0 c3 ad c3 a0 c3 a4 c3  |;, .............|
00000080  b1 c3 aa c3 ae c3 a5 20  c3 8e c3 91 c3 81 20 c2  |....... ...... .|


Судя по тому,  что тут по 8 байт на символ, а на ascii-символы - 4 байта - это какая-то проблема с кириллицей и UTF-8.
Я уж ковырял-ковырял....

Есть алгоритм простой перевода этой, да именно этой, мути в адекватный юникод или какой-нить koi8_r или cp 1251? Как эту абракадабру с кириллицей соотнести можно?

заранее ооочень признателен.


ps я даже не знаю что написано.....


Это сообщение отредактировал(а) scai - 28.4.2009, 12:31
--------------------
 
PM MAIL   Вверх
ksnk
Дата 28.4.2009, 12:40 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


прохожий
****


Профиль
Группа: Комодератор
Сообщений: 6855
Регистрация: 13.4.2007
Где: СПб

Репутация: нет
Всего: 386



"Штирлиц" поможет?

По симптомам выглядит как кодирование из 8-и битовой кодировки в UTF с неправильно выбранной кодировкой

Добавлено через 2 минуты и 16 секунд
Вернадское ОСБ
?


--------------------
Человеку свойственно ошибаться, программисту свойственно ошибаться профессионально ! user posted image
PM MAIL WWW Skype   Вверх
azesmcar
Дата 28.4.2009, 12:47 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


uploading...
****


Профиль
Группа: Участник Клуба
Сообщений: 6291
Регистрация: 12.11.2004
Где: Армения

Репутация: нет
Всего: 211



scai

Не понял что именно нужно сделать? Причем тут алгоритм? Где этот текст? на каком языке программирования его надо конвертировать?
П.С.
Это cp 1251 и тут написано
Цитата

;,Вернадское ОСБ


Добавлено через 1 минуту и 13 секунд
ksnk

Опоздал smile

Это сообщение отредактировал(а) azesmcar - 28.4.2009, 12:47
PM   Вверх
scai
Дата 28.4.2009, 13:18 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Неофит
*


Профиль
Группа: Участник
Сообщений: 122
Регистрация: 20.1.2007
Где: г. Загорск

Репутация: нет
Всего: 2



Это я пдфы подручными средствами перегоняю( abbyy и adobe не предлагать ) указывая кодировку UTF-8. (Доступные мне инструменты в коир и ср1251 перегоняют только в виде трудноперевариваемого текста...) 
Получается html-ка, которая при просмотре в firefox с принудительной utf-8 или cp1251 все равно эту чушь выдают, при чем одинаковую.....

То есть мне или сам файл нужно посимвольно перегнать и для этого таблица нужна соответствующаяя, либо пойти в питоновскую ветку и там спросить, как такие файлы правильно открывать и читать, или в юниксовую - каак хорошо его перегнать....

Или ну я не знаю вообще.... smile 

Вообще странно, если это cp1251, почему браузер не понимает... Не смылю я ничего в кодировках

Это сообщение отредактировал(а) scai - 28.4.2009, 13:31
--------------------
 
PM MAIL   Вверх
scai
Дата 28.4.2009, 13:45 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Неофит
*


Профиль
Группа: Участник
Сообщений: 122
Регистрация: 20.1.2007
Где: г. Загорск

Репутация: нет
Всего: 2



или конвертер сам поправить..........
как имея такую таблицу( ср1251 ):
Код

000a 0a
000c 000d 0c
0020 007e 20
00a0 a0
00a5 a5
00a7 a7
00a8 a8
00a9 a9
00aa aa
00ab ab
00ae ae
00af af
00b0 b0
00b2 b2
00b3 b3
00b4 b4
00b7 b7
00b8 b8
00ba ba
00bb bb
00bf bf
00c0 c0
00c1 c1
00c2 c2
00c3 c3
00c4 c4
00c5 c5
00c6 c6
00c7 c7
00c8 c8
00c9 c9
00ca ca
00cb cb
00cc cc
00cd cd
00ce ce
00cf cf
00d0 d0
00d1 d1
00d2 d2
00d3 d3
00d4 d4
00d5 d5
00d6 d6
00d7 d7
00d8 d8
00d9 d9
00da da
00db db
00dc dc
00dd dd
00de de
00df df
00e0 e0
00e1 e1
00e2 e2
00e3 e3
00e4 e4
00e5 e5
00e6 e6
00e7 e7
00e8 e8
00e9 e9
00ea ea
00eb eb
00ec ec
00ed ed
00ee ee
00ef ef
00f0 f0
00f1 f1
00f2 f2
00f3 f3
00f4 f4
00f5 f5
00f6 f6
00f7 f7
00f8 f8
00f9 f9
00fa fa
00fb fb
00fc fc
00fd fd
00fe fe
00ff ff
0100 ff
00f7 2f
02c6 5e
02da b0
02dc 7e
0401 a8
0404 aa
0406 b2
0407 af
0410 c0
0411 c1
0412 c2
0413 c3
0414 c4
0415 c5
0416 c6
0417 c7
0418 c8
0419 c9
041a ca
041b cb
041c cc
041d cd
041e ce
041f cf
0420 d0
0421 d1
0422 d2
0423 d3
0424 d4
0425 d5
0426 d6
0427 d7
0428 d8
0429 d9
042a da
042b db
042c dc
042d dd
042e de
042f df
0430 e0
0431 e1
0432 e2
0433 e3
0434 e4
0435 e5
0436 e6
0437 e7
0438 e8
0439 e9
043a ea
043b eb
043c ec
043d ed
043e ee
043f ef
0440 f0
0441 f1
0442 f2
0443 f3
0444 f4
0445 f5
0446 f6
0447 f7
0448 f8
0449 f9
044a fa
044b fb
044c fc
044d fd
044e fe
044f ff
0451 b8
0454 ba
0456 b3
0457 bf
0490 a5
0491 b4
2013 96
2014 97
2018 91
2019 92
201a 82
201c 93
201d 94
201e 84
2022 95
2026 2e2e2e
2039 8b
203a 9b
2044 2f
2116 b9
2122 544d
2212 2d
2219 95
2248 7e
2500 97
2502 7c
250c 96
2510 96
2514 96
2518 96
251c 7c
2524 7c
252c 97
2534 97
253c 7c
2550 97
2553 7c
2562 7c
fb00 6666
fb01 6669
fb02 666c
fb03 666669
fb04 66666c


или такую кои8_р
Код

# in-hex out-hex1 out-hex2 ..

000a 0a
000c 000d 0c
0020 007e 20
00a0 9a
00a9 bf
00b0 9c
00b2 9d
00b7 9e
00f7 9f
02c6 5e
02da 9c
02dc 7e
0401 b3
0410 0411 e1
0412 f7
0413 e7
0414 0415 e4
0416 f6
0417 fa
0418 041f e9
0420 0423 f2
0424 e6
0425 e8
0426 e3
0427 fe
0428 fb
0429 fd
042a ff
042b f9
042c f8
042d fc
042e e0
042f f1
0430 0431 c1
0432 d7
0433 c7
0434 0435 c4
0436 d6
0437 da
0438 c9
0439 043f ca
0440 0443 d2
0444 c6
0445 c8
0446 c3
0447 de
0448 db
0449 dd
044a df
044b d9
044c d8
044d dc
044e c0
044f d1
0451 a3
2013 2d
2014 2d2d
2018 60
2019 27
201a 2c
201c 22
201d 22
201e 2c2c
2022 9e
2026 2e2e2e
2039 3c
203a 3e
2044 2f
2122 544d
2212 2d
2219 221a 95
2248 97
2264 2265 98
2320 93
2321 9b
2500 80
2502 81
250c 82
2510 83
2514 84
2518 85
251c 86
2524 87
252c 88
2534 89
253c 8a
2550 2552 a0
2553 2561 a4
2562 256c b4
2580 8b
2584 8c
2588 8d
258c 8e
2590 2593 8f
25a0 94

fb00 6666
fb01 6669
fb02 666c
fb03 666669
fb04 66666c


привести ее к виду:
Код

struct UnicodeMapRange {
  Unicode start, end;        // range of Unicode chars
  Guint code, nBytes;        // first output code
};


static UnicodeMapRange latin1UnicodeMapRanges[] = {
  { 0x000a, 0x000a, 0x0a, 1 },
  { 0x000c, 0x000d, 0x0c, 1 },
  { 0x0020, 0x007e, 0x20, 1 },
  { 0x00a0, 0x00a0, 0x20, 1 },
  { 0x00a1, 0x00ac, 0xa1, 1 },
  { 0x00ae, 0x00ff, 0xae, 1 },
  { 0x010c, 0x010c, 0x43, 1 },
  { 0x010d, 0x010d, 0x63, 1 },
  { 0x0131, 0x0131, 0x69, 1 },
  { 0x0141, 0x0141, 0x4c, 1 },
  { 0x0142, 0x0142, 0x6c, 1 },
  { 0x0152, 0x0152, 0x4f45, 2 },
  { 0x0153, 0x0153, 0x6f65, 2 },
  { 0x0160, 0x0160, 0x53, 1 },
  { 0x0161, 0x0161, 0x73, 1 },
  { 0x0178, 0x0178, 0x59, 1 },
  { 0x017d, 0x017d, 0x5a, 1 },
  { 0x017e, 0x017e, 0x7a, 1 },
  { 0x02c6, 0x02c6, 0x5e, 1 },
  { 0x02da, 0x02da, 0xb0, 1 },
  { 0x02dc, 0x02dc, 0x7e, 1 },
  { 0x2013, 0x2013, 0xad, 1 },
  { 0x2014, 0x2014, 0x2d2d, 2 },
  { 0x2018, 0x2018, 0x60, 1 },
  { 0x2019, 0x2019, 0x27, 1 },
  { 0x201a, 0x201a, 0x2c, 1 },
  { 0x201c, 0x201c, 0x22, 1 },
  { 0x201d, 0x201d, 0x22, 1 },
  { 0x201e, 0x201e, 0x2c2c, 2 },
  { 0x2022, 0x2022, 0xb7, 1 },
  { 0x2026, 0x2026, 0x2e2e2e, 3 },
  { 0x2039, 0x2039, 0x3c, 1 },
  { 0x203a, 0x203a, 0x3e, 1 },
  { 0x2044, 0x2044, 0x2f, 1 },
  { 0x2122, 0x2122, 0x544d, 2 },
  { 0x2212, 0x2212, 0x2d, 1 },
  { 0xf6f9, 0xf6f9, 0x4c, 1 },
  { 0xf6fa, 0xf6fa, 0x4f45, 2 },
  { 0xf6fc, 0xf6fc, 0xb0, 1 },
  { 0xf6fd, 0xf6fd, 0x53, 1 },
  { 0xf6fe, 0xf6fe, 0x7e, 1 },
  { 0xf6ff, 0xf6ff, 0x5a, 1 },
  { 0xf721, 0xf721, 0x21, 1 },
  { 0xf724, 0xf724, 0x24, 1 },
  { 0xf726, 0xf726, 0x26, 1 },
  { 0xf730, 0xf739, 0x30, 1 },
  { 0xf73f, 0xf73f, 0x3f, 1 },
  { 0xf761, 0xf77a, 0x41, 1 },
  { 0xf7a1, 0xf7a2, 0xa1, 1 },
  { 0xf7bf, 0xf7bf, 0xbf, 1 },
  { 0xf7e0, 0xf7f6, 0xc0, 1 },
  { 0xf7f8, 0xf7fe, 0xd8, 1 },
  { 0xf7ff, 0xf7ff, 0x59, 1 },
  { 0xfb00, 0xfb00, 0x6666, 2 },
  { 0xfb01, 0xfb01, 0x6669, 2 },
  { 0xfb02, 0xfb02, 0x666c, 2 },
  { 0xfb03, 0xfb03, 0x666669, 3 },
  { 0xfb04, 0xfb04, 0x66666c, 3 }
};

?????

можно в принципе... только как на глаз узнать длину символа?  Двести штук...



Это сообщение отредактировал(а) scai - 28.4.2009, 14:01
--------------------
 
PM MAIL   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Форматы файлов и данных | Следующая тема »


 




[ Время генерации скрипта: 0.1384 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.