Модераторы: bsa
  

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> простая функция substr для UTF-8 
:(
    Опции темы
polin11
Дата 22.10.2017, 07:34 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 122
Регистрация: 6.6.2015

Репутация: нет
Всего: нет



простая функция substr для UTF-8

Функция cutString делает срез строки в формате UTF-8 от 0 до len.
Код

#include <iostream>
#include <codecvt>
#include <string>
#include <locale>

std::string cutString(const std::string& in, size_t len)
{
    std::wstring_convert<std::codecvt_utf8<wchar_t>> cvt;
    auto wstring = cvt.from_bytes(in);
    if(len < wstring.length())
    {
        wstring = wstring.substr(0,len);
        return cvt.to_bytes(wstring);
    }    
    return in;
}
int main(){
    std::string test = "\xe4\xbd\xa0\xe5\xa5\xbd\xe4\xb8\x96\xe7\x95\x8c"; //你好世界 length 4
    std::cout << test << '\n' << cutString(test,2) << '\n';
    return 0;
}

Понятно, что UTF-8 (переменное количество байт), обынчые функции size, substr работают некорректно.

1) Помогите разобраться, что делают строки  
Код

std::wstring_convert<std::codecvt_utf8<wchar_t>> cvt;
auto res = cvt.from_bytes(in);
wstring = wstring.substr(0,len);
return cvt.to_bytes(res);

правильно ли я понимаю преобразуют в тип с постоянным количеством байт, 
затем  делает срез строки, преобразует его обратно UTF-8???


2) Кажется условие  if(len < wstring.length()) 
(количество символов в подстроке  должно быть меньше  символов в  самой строке) избыточно,
без него исключение не возникаем, выдает все строку целиком???

 

PM MAIL   Вверх
xvr
Дата 24.10.2017, 15:56 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Комодератор
Сообщений: 7046
Регистрация: 28.8.2007
Где: Дублин, Ирландия

Репутация: 35
Всего: 223



Цитата(polin11 @  22.10.2017,  07:34 Найти цитируемый пост)
1) Помогите разобраться, что делают строки  

Конвертируют ваш UTF-8 в Unicode, вырезают из него требуемое количество символов и конвертируют Unicode обратно в UTF-8

PM MAIL   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "C/C++: Для новичков"
JackYF
bsa

Запрещается!

1. Публиковать ссылки на вскрытые компоненты

2. Обсуждать взлом компонентов и делиться вскрытыми компонентами

  • Действия модераторов можно обсудить здесь
  • С просьбами о написании курсовой, реферата и т.п. обращаться сюда
  • Вопросы по реализации алгоритмов рассматриваются здесь


Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, JackYF, bsa.

 
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | C/C++: Для новичков | Следующая тема »


 




[ Время генерации скрипта: 0.0976 ]   [ Использовано запросов: 22 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.