解决C++中文编码处理问题

可能是被其他语言惯坏了，以前压根没有关注过中文编码问题，最多也就是扒网页的时候编码不对导致乱码，然后自己转换一下。C++中文处理问题属实是给我整清醒了。

先来看看这段代码有什么问题：

std::cout << "使用提示：" << std::endl;
std::cout << "1、访问高权限文件夹会报错退出" << std::endl;
std::cout << "2、请输入文件夹路径例如:\"D:\\Folder\"" << std::endl;

std::string Path;
getline(std::cin, Path);
std::cout << Path << std::endl;

短短6行代码我找了一下午问题，getline死活不能正常读入中文，要么英文正常中文乱码，要么直接没输出，什么问题？编码问题！一开始我为了输出中文调成了GBK编码（当然我并不知道原理），后面就莫名其妙非要用UTF-8，就引发了一大堆问题

为了正确cout中文，我加入了这样一行代码：

SetConsoleOutputCP(CP_UTF8);

不错不错，编码统一了，代码文件用UTF-8控制台也用UTF-8，解决问题！但是后面的getline为什么还是乱码？我又想到控制台输入的编码格式也应该改，于是加入下列代码：

SetConsoleCP(CP_UTF8);

没有解决问题，各种千奇百怪的乱码。我开始怀疑是getline不支持中文？？？GPT问啊问，上网搜啊搜，没用（getline没问题，怎么会找得到问题的解决方案呢，理所应当）。52发帖问大佬，大佬们截图给我getline正常读入，cout正常输出中文，我又再单独写一段getline，诶？的确是正常的，那么短短几行代码究竟是谁在作妖？

这位大佬说的有点小问题，不过给了我启发，我问GPT getline为什么只接收ANSI编码，GPT说不是这样的，不过getline从控制台读入字符串的方式是按照一个字节一个字节读入的。噢，我突然就明白了，中文一个字占2个字节，getline这样读入就容易出问题，但这只解释了getline没输入的情况，不能解释乱码的情况，凭什么字符串前面的英文正常，后面的英文正常，就中间夹的中文乱码。

噢，又经过后面的大佬提醒，输入UTF-8输出也要UTF-8，输入GBK输出也要GBK，所以又得把控制台输入输出编码都调成GBK，成功解决问题！

其实我写得不是很清楚，至于为什么必须输入GBK输出GBK，不能输入UTF-8输出UTF-8这个问题我没有继续追查下去，排查到问题所在是最后一行cout在搞鬼，可能是输入流里面有什么不干净的东西还是？？？

另外贴条窄字符转宽字符代码，使用w类型函数支持中文

// 转换路径为宽字符，解决中文路径问题
int size_needed = MultiByteToWideChar(CP_UTF8, 0, &filePath[0], (int)filePath.size(), NULL, 0);
std::wstring wstr(size_needed, 0);
MultiByteToWideChar(CP_UTF8, 0, &filePath[0], (int)filePath.size(), &wstr[0], size_needed);

发送评论 编辑评论

推荐文章

发送评论编辑评论