Модераторы: Daevaorn

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Установка верхнего регистра слова в utf-8, Установка верхнего регистра слова в utf- 
:(
    Опции темы
ISP
Дата 22.10.2011, 00:52 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 20
Регистрация: 14.5.2008
Где: Санкт-Петербург

Репутация: нет
Всего: нет



Интересует как поменять нижний регистр на верхний в utf-8 ? Если как то важно то используется linux g++  smile 
PM MAIL WWW ICQ   Вверх
ISP
Дата 22.10.2011, 01:49 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 20
Регистрация: 14.5.2008
Где: Санкт-Петербург

Репутация: нет
Всего: нет



например вот такой код


#include <iostream>
#include <cctype>
#include <locale.h>
#include <string>

using namespace std;

int main() 
{
setlocale(LC_CTYPE,"ru_RU.UTF-8");
string s;
getline(cin, s);
for (int i = 0; i < (int)s.length(); ++i) 
{
s[i] =  toupper(s[i]);
}
cout << s << endl;
return 0;
}


если латиница то нормально меняет ,но только вводишь русские , то оставляет как есть, в чем причина?  
PM MAIL WWW ICQ   Вверх
math64
Дата 22.10.2011, 08:29 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Завсегдатай
Сообщений: 2505
Регистрация: 12.4.2007

Репутация: 8
Всего: 72



Нужно преобразовать из uff8 в utf16 (wchar_t*)
изменить регистр, и преобразовать назад.
Как это сделать в Qt знаю, как используя только системные функции Linux - не знаю.
PM   Вверх
boostcoder
Дата 22.10.2011, 08:47 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


pattern`щик
****


Профиль
Группа: Завсегдатай
Сообщений: 5458
Регистрация: 1.4.2010

Репутация: 49
Всего: 110



Цитата(math64 @  22.10.2011,  08:29 Найти цитируемый пост)
Нужно преобразовать из uff8 в utf16 (wchar_t*)

зачем?
PM WWW   Вверх
math64
Дата 22.10.2011, 10:13 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Завсегдатай
Сообщений: 2505
Регистрация: 12.4.2007

Репутация: 8
Всего: 72



Цитата(boostcoder @  22.10.2011,  08:47 Найти цитируемый пост)
зачем?

Предложи другое решение, чем зачемкать.
PM   Вверх
boostcoder
Дата 22.10.2011, 12:38 (ссылка)    | (голосов:1) Загрузка ... Загрузка ... Быстрая цитата Цитата


pattern`щик
****


Профиль
Группа: Завсегдатай
Сообщений: 5458
Регистрация: 1.4.2010

Репутация: 49
Всего: 110



Цитата(math64 @  22.10.2011,  10:13 Найти цитируемый пост)
чем зачемкать

вы как-то агрессивно-негативно настроены. не нужно выливать "это" на участников.
я лишь хотел сказать, что конверт в utf-16 ничего не даст, т.к. работа с локалями в utf-16 ничем не отличается, и поэтому ваше предложение лишено смысла.
в гугле про работу с локалями, написано наверное чуть меньше чем про использование стандартного вывода. и все подобные "писюльки" начинаются с выполнения "locale -a".
PM WWW   Вверх
ISP
Дата 22.10.2011, 12:46 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 20
Регистрация: 14.5.2008
Где: Санкт-Петербург

Репутация: нет
Всего: нет



с локалью то все хорошо, только вот информации как Вы говорите не много , проверял локали 
cout << "std::locale loc=" << loc.name() << endl;
printf(setlocale(LC_ALL, ""));

все правилно ,utf-8 ,но только начинаешь использовать toupper и как будто ничего не изменилось с русскими буквами, а с латиницей все норм)))

решали вопрос тут http://www.linux.org.ru/forum/development/2904684 ,но и то как то не удачно :( подключать boost ?!?! хм.... желательно бы стандартными средствами это сделать)))  smile 
PM MAIL WWW ICQ   Вверх
bsa
Дата 22.10.2011, 13:17 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Модератор
Сообщений: 9185
Регистрация: 6.4.2006
Где: Москва, Россия

Репутация: 63
Всего: 196



сначала с помощью mbstowcs преобразуешь utf-8 в wchar_t, с помощью wcsupr приводишь к верхнему регистру, и наконец с помощью wcstombs преобразуешь результат в utf-8
PM   Вверх
boostcoder
Дата 22.10.2011, 17:25 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


pattern`щик
****


Профиль
Группа: Завсегдатай
Сообщений: 5458
Регистрация: 1.4.2010

Репутация: 49
Всего: 110



sizeof("абв") == 7

а чё, facepalm так и не добавили?
PM WWW   Вверх
math64
Дата 22.10.2011, 21:51 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Завсегдатай
Сообщений: 2505
Регистрация: 12.4.2007

Репутация: 8
Всего: 72



Цитата(boostcoder @  22.10.2011,  12:38 Найти цитируемый пост)
я лишь хотел сказать, что конверт в utf-16 ничего не даст, т.к. работа с локалями в utf-16 ничем не отличается, и поэтому ваше предложение лишено смысла.

Так бы сразу бы и поясняли - всё было бы ясно, a "зачем?" можно понять по-разному, т. е. что есть способ решить проблему без преобразования в utf-16 и Вы его знаете, но почему-то скрываете.
towupper(wchar_t) действительно работает только для латиницы.
QString::toUpper() работает правильно и для кириллицы - т.е. при использовании Qt преобразование в utf-16 помогает решить задачу.
Но я посмотрел в исходники Qt, там для этого используются свои таблицы типов символов Unicode - видимо, стандартного кроссплатформенного решения не существует.

PM   Вверх
borisbn
Дата 22.10.2011, 23:47 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Завсегдатай
Сообщений: 4875
Регистрация: 6.2.2010
Где: Ростов-на-Дону

Репутация: 22
Всего: 135



Цитата(math64 @  22.10.2011,  21:51 Найти цитируемый пост)
Но я посмотрел в исходники Qt, там для этого используются свои таблицы типов символов Unicode - видимо, стандартного кроссплатформенного решения не существует.


boostcoder, touché ?

Добавлено через 30 секунд
 smile, ессно


--------------------
Женщины отличаются от программистов тем, что у них чары состоят из стрингов
PM MAIL Jabber   Вверх
volatile
Дата 23.10.2011, 02:17 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Завсегдатай
Сообщений: 2107
Регистрация: 7.1.2011

Репутация: 37
Всего: 85



Цитата(ISP @  22.10.2011,  01:49 Найти цитируемый пост)
setlocale(LC_CTYPE,"ru_RU.UTF-8");
string s;
getline(cin, s);
for (int i = 0; i < (int)s.length(); ++i) 
{
s =  toupper(s[i]);
}

Вот, это и есть, о чем я говорил
Это все она,  божественная  кодировка  smile 
PM MAIL   Вверх
boostcoder
Дата 23.10.2011, 02:51 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


pattern`щик
****


Профиль
Группа: Завсегдатай
Сообщений: 5458
Регистрация: 1.4.2010

Репутация: 49
Всего: 110



http://stackoverflow.com/questions/2598569...r-locale-german, второй ответ.

Цитата(borisbn @  22.10.2011,  23:47 Найти цитируемый пост)
touché ?

?

Цитата(borisbn @  22.10.2011,  23:47 Найти цитируемый пост)
ессно

что?

PM WWW   Вверх
xvr
Дата 24.10.2011, 14:04 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Комодератор
Сообщений: 7046
Регистрация: 28.8.2007
Где: Дублин, Ирландия

Репутация: 60
Всего: 223



Цитата(boostcoder @ 22.10.2011,  08:47)
Цитата(math64 @  22.10.2011,  08:29 Найти цитируемый пост)
Нужно преобразовать из uff8 в utf16 (wchar_t*)

зачем?

UTF-8 кодировка многобайтовая. В ней один символ может занимать от 1 до 5 байтов (если правильно помню). Так что toupper нужно применять ко всем этим 5 байтам сразу, а стандартный toupper такого авангардизма не понимает  smile 
Так что wchar_t будет ответом - там символ всегда один (хоть и 16 или 32х битный)  smile 


PM MAIL   Вверх
boostcoder
Дата 24.10.2011, 14:35 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


pattern`щик
****


Профиль
Группа: Завсегдатай
Сообщений: 5458
Регистрация: 1.4.2010

Репутация: 49
Всего: 110



xvr, для этого есть std::toupper
PM WWW   Вверх
xvr
Дата 24.10.2011, 14:53 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Комодератор
Сообщений: 7046
Регистрация: 28.8.2007
Где: Дублин, Ирландия

Репутация: 60
Всего: 223



Цитата(boostcoder @ 24.10.2011,  14:35)
xvr, для этого есть std::toupper

Неа, std::toupper тоже такого авангардизма не понимает  smile Ему 1 символ дают, а не 5  smile 

PM MAIL   Вверх
math64
Дата 24.10.2011, 15:23 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Завсегдатай
Сообщений: 2505
Регистрация: 12.4.2007

Репутация: 8
Всего: 72



Цитата(xvr @  24.10.2011,  14:53 Найти цитируемый пост)
Неа, std::toupper тоже такого авангардизма не понимает

Нужно использовать std::toupper(wchar_t, locale); - под Ubuntu, по крайней мере, работает.
А для этого как раз нужно перекодировать в нормальный Unicode.
PM   Вверх
feseal
Дата 25.10.2011, 09:53 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 9
Регистрация: 18.5.2011

Репутация: нет
Всего: нет



Есть такая книжка Скотт Мейерс-Эффективное использование STL
В её приложении А "Локальные контексты"  описывается решение задачи сравнения строк без учета регистра с использованием локального контекста. Для решения этой задачи каждый символ стоки преобразовывается в верхний регистр (с использованием фасета локального контекста, который отвечает за классификацию символов, в том числе и за преобразование регистра) и сравнивается.
Вот код под windows (к сожалению нет сейчас под рукой машины с Linux)
Код

#include <locale>
#include <iostream>
#include <locale.h>

int main( int argc, char* argv[] )
{
  try{
    setlocale(LC_ALL, "");
    std::locale L("rus_rus"); // имя локали зависит от платформы, полагаю, что для Linux "ru_RU.UTF-8"
    const std::ctype<wchar_t>& ct = std::use_facet< std::ctype<wchar_t> >(L);
    wchar_t s = ct.toupper(L'ш');
    std::wcout << s << std::endl;
  }catch(std::exception& e){
    std::cout << e.what();
  }

  return 0;
}


Это сообщение отредактировал(а) feseal - 25.10.2011, 09:54
PM MAIL   Вверх
bsa
Дата 25.10.2011, 10:24 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Модератор
Сообщений: 9185
Регистрация: 6.4.2006
Где: Москва, Россия

Репутация: 63
Всего: 196



Цитата(feseal @  25.10.2011,  10:53 Найти цитируемый пост)
std::locale L("rus_rus");

А если у текущего пользователя локаль не русская, а немецкая, например?
PM   Вверх
feseal
Дата 25.10.2011, 10:33 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 9
Регистрация: 18.5.2011

Репутация: нет
Всего: нет



Цитата(bsa @  25.10.2011,  10:24 Найти цитируемый пост)
А если у текущего пользователя локаль не русская, а немецкая, например? 


Тогда задает соответствующее имя локали. Имена локальных контекстов не стандартизированы. 
Вот ссылка с описанием для Windows microsoft.com
Вот краткое описание для Linux ru.wikipedia.org
 smile  и что же пользователь с немецкой локалью забыл на русскоязычном форуме?  smile 

Это сообщение отредактировал(а) feseal - 25.10.2011, 10:39
PM MAIL   Вверх
bsa
Дата 25.10.2011, 10:37 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Модератор
Сообщений: 9185
Регистрация: 6.4.2006
Где: Москва, Россия

Репутация: 63
Всего: 196



По-моему, std::locale L(""); создаст локаль соответствующую текущим настройкам пользователя (в описании не нашел, но по аналогии с setlocale).
PM   Вверх
feseal
Дата 25.10.2011, 10:52 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 9
Регистрация: 18.5.2011

Репутация: нет
Всего: нет



Цитата(bsa @  25.10.2011,  10:37 Найти цитируемый пост)
По-моему, std::locale L(""); создаст локаль соответствующую текущим настройкам пользователя (в описании не нашел, но по аналогии с setlocale). 


В описании конструктора std::locale написано, что в качестве входного параметра конструктора используется имя локали из стандартной библиотеки Си. Описание функции setlocale. Думаю комментарии излишни. 

Вот код программки, проверенный  в Linux (OpenSuse 11.4)

Код

#include <locale>
#include <iostream>
#include <locale.h>
#include <string>
#include <vector>


int main( int argc, char* argv[] )
{
  try{
    //получаем имя текущей локали и выводим её в консоль
    const char* name = setlocale(LC_ALL, "");
    std::wcout << name << std::endl;

    //запрашиваем строку у пользователя
    std::wstring str;
    std::wcout << L"Введите строку: ";
    std::wcin  >> str;

    //получаем ссылку на фасет
    std::locale L( name );
    const std::ctype<wchar_t>& ct = std::use_facet< std::ctype<wchar_t> >(L);
    
    //передаем указатель на строку в функцию ct.toupper() через вектор
    std::vector<wchar_t> v( str.begin(), str.end() );
    ct.toupper( &v[0], &v[0] + v.size() );
    
    //преобразуем из вектора в строку и выводим строку в консоль
    std::wstring str_upper( v.begin(), v.end() );
    std::wcout << str_upper << std::endl;

  }catch(std::exception& e){
    std::wcout << e.what();
  }

  return 0;
}
.
 Не самый быстрый способ, но работает, подробности по оптимизации у все в той же книге Скотта Мейерса.


Это сообщение отредактировал(а) feseal - 25.10.2011, 12:42
PM MAIL   Вверх
xvr
Дата 25.10.2011, 12:50 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Комодератор
Сообщений: 7046
Регистрация: 28.8.2007
Где: Дублин, Ирландия

Репутация: 60
Всего: 223



Цитата(feseal @  25.10.2011,  09:53 Найти цитируемый пост)
Вот код под windows

Это работает, но это не то, что было нужно (точнее это не toupper в UTF-8). Это снова Unicode (т.е. wchar_t):
Код

wchar_t s = ct.toupper(L'ш');
Обратите внимание на L перед 'ш'  smile 

PM MAIL   Вверх
feseal
Дата 25.10.2011, 14:53 (ссылка) |    (голосов:1) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 9
Регистрация: 18.5.2011

Репутация: нет
Всего: нет



Цитата(xvr @  25.10.2011,  12:50 Найти цитируемый пост)
Это работает, но это не то, что было нужно (точнее это не toupper в UTF-8). Это снова Unicode (т.е. wchar_t)

Наверное я не понял, что Вам нужно. Посмотрите вот тут, возможно статья наведет вас на некоторые мысли.

PM MAIL   Вверх
xvr
Дата 26.10.2011, 13:08 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Комодератор
Сообщений: 7046
Регистрация: 28.8.2007
Где: Дублин, Ирландия

Репутация: 60
Всего: 223



Цитата(feseal @  25.10.2011,  14:53 Найти цитируемый пост)
Наверное я не понял, что Вам нужно.

Это не мне нужно, а ТС  smile 

Цитата(ISP @  22.10.2011,  00:52 Найти цитируемый пост)
Интересует как поменять нижний регистр на верхний в utf-8 ?

Ответ - перевести в wchar_t (он же UTF-16, он же просто Unicode) и применить соответствующий toupper к wchar_t
Вопрос - зачем переводить в Unicode/wchar_t, нельзя ли сразу сделать toupper в UTF-8? Ответ - UTF-8 многобайтовая кодировка (т.е. одному символу может соответствовать несколько байтов), поэтому отдельно для каждого байта в UTF-8 сделать toupper нельзя (в принципе)

PM MAIL   Вверх
Страницы: (2) [Все] 1 2 
Ответ в темуСоздание новой темы Создание опроса
Правила форума "С++:Общие вопросы"
Earnest Daevaorn

Добро пожаловать!

  • Черновик стандарта C++ (за октябрь 2005) можно скачать с этого сайта. Прямая ссылка на файл черновика(4.4мб).
  • Черновик стандарта C (за сентябрь 2005) можно скачать с этого сайта. Прямая ссылка на файл черновика (3.4мб).
  • Прежде чем задать вопрос, прочтите это и/или это!
  • Здесь хранится весь мировой запас ссылок на документы, связанные с C++ :)
  • Не брезгуйте пользоваться тегами [code=cpp][/code].
  • Пожалуйста, не просите написать за вас программы в этом разделе - для этого существует "Центр Помощи".
  • C++ FAQ

Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, Earnest Daevaorn

 
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | C/C++: Общие вопросы | Следующая тема »


 




[ Время генерации скрипта: 0.1240 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.