Версия для печати темы
Нажмите сюда для просмотра этой темы в оригинальном формате
Форум программистов > C/C++: Для новичков > простая функция substr для UTF-8


Автор: polin11 22.10.2017, 07:34
простая функция substr для UTF-8

Функция cutString делает срез строки в формате UTF-8 от 0 до len.
Код

#include <iostream>
#include <codecvt>
#include <string>
#include <locale>

std::string cutString(const std::string& in, size_t len)
{
    std::wstring_convert<std::codecvt_utf8<wchar_t>> cvt;
    auto wstring = cvt.from_bytes(in);
    if(len < wstring.length())
    {
        wstring = wstring.substr(0,len);
        return cvt.to_bytes(wstring);
    }    
    return in;
}
int main(){
    std::string test = "\xe4\xbd\xa0\xe5\xa5\xbd\xe4\xb8\x96\xe7\x95\x8c"; //你好世界 length 4
    std::cout << test << '\n' << cutString(test,2) << '\n';
    return 0;
}

Понятно, что UTF-8 (переменное количество байт), обынчые функции size, substr работают некорректно.

1) Помогите разобраться, что делают строки  
Код

std::wstring_convert<std::codecvt_utf8<wchar_t>> cvt;
auto res = cvt.from_bytes(in);
wstring = wstring.substr(0,len);
return cvt.to_bytes(res);

правильно ли я понимаю преобразуют в тип с постоянным количеством байт, 
затем  делает срез строки, преобразует его обратно UTF-8???


2) Кажется условие  if(len < wstring.length()) 
(количество символов в подстроке  должно быть меньше  символов в  самой строке) избыточно,
без него исключение не возникаем, выдает все строку целиком???

 

Автор: xvr 24.10.2017, 15:56
Цитата(polin11 @  22.10.2017,  07:34 Найти цитируемый пост)
1) Помогите разобраться, что делают строки  

Конвертируют ваш UTF-8 в Unicode, вырезают из него требуемое количество символов и конвертируют Unicode обратно в UTF-8

Powered by Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)