用C++读写unicode文本

现在的位置: 首页 > 综合 > 正文

用C++读写unicode文本

2014年01月29日 ⁄ 综合 ⁄ 共 3375字 ⁄ 字号小中大 ⁄ 评论关闭

转自：http://www.cnblogs.com/WeedQian/archive/2009/12/28/1634478.html

字符类型

char, wchar_t, TCHAR，最熟悉的char是单字节字符，适用于ANSI编码；wchar_t是双字节的宽字符类型，适用于unicode编码；TCHAR是一个宏，在ANSI坏境下定义为char，unicode坏境下定义为wchar_t。

怎么来表示字符串？对，字符数组，要知道在C++语言里面，其实没有数组的数据结构，所谓数组，都是由指针+长度来表示。

字符型指针const char *, const wchar_t *, const TCHAR *可以用来在不同的环境下表示字符串。再说相关的几个宏，LPSTR: long point string, 相当于char *; LPCSTR: long point const string, 相当于 const char *; LPCWSTR: long point const wide string, 相当于 const wchar_t *; LPCTSTR: 类似的，相当于 const TCHAR *;
这些都不要死记硬背，记着大写字母的意思即可猜出其含义。

一个字符串，比如说"北京2008"，对应ANSI编码表示为 const char * cha = "北京2008"; unicode编码表示为 const wchar_t * wcha = L"北京2008"; 。在内存里以二进制存储，ANSI编码对应为 0x B1B1BE A9 32 30 30 38，unicode编码为 0x 1753 AC4E 3200 3000 3000 3800。

回到上面，为什么字符型指针可以表示一个字符串？计算机找到这个指针，只能知道串首字符，这里因为字符串有个默认的结束符'\0'（ANSI或者ASCII表示为0x00），从首字符开始，计算机开始向后查找直到0x00，认为字符串结束，所以存储字符串的时候，计算机是带着一个特殊结束符的。可是要注意了，0x00是ASCII码定义的结束符，在宽字符unicode环境下，结束符是0x0000。

而对于非const字符串，怎么表示？char * 方法怎么动态定义长度？好办，可以用new手动分配内存空间，除此之外，还有更好办的方法，那就是字符串类型string, 怎么可变长度，怎么记录长度，内存怎么存储，这些都不用管，都有C++标准库自动管理。

不同类型的字符串间之间怎么转换？

比如定义 char * cha; string str; str = cha; // 可以实现 char * 到string 的转换， cha = str.c_str(); 可以从 string 转换到 char *；

对于wchar_t wcha; wstring wstr; 呢？wstr = wcha; wcha = wstr.c_str(); // 这个是否可以呢？！

字符流I/O

C++里面的fstream, ifstream, ofstream, 文件流的I/O有好多种方式，默认为ANSI字符流方式，是针对ANSI文本的，那么unicode怎么读写呢？

C++里倒真有wfsteam流的，可惜用起来也很奇怪，用wifstream读取unicode文本，结果竟然是读取一个字节，加上一个0x00，再读取下一个字节，如此！比如文本里保存的还是“北京2008”，刚才说过unicode编码为 0x 1753 AC4E 3200 3000 3000 3800；用wifstream读到内存的字符竟是 0x 1700 5300 AC00 4E00 ... 这叫什么unicode？我不知道wfstream怎么正确使用用，有知道的朋友还请不吝告知！

既然wftream不行，那么怎么读取unicode呢，这里可以借鉴一下二进制流的读写方式，二进制流在读写时必须明白存储单位的数据结构，定义为结构体，然后逐n字节（n为结构长度）按二进制读取；这个可以借鉴过来，不用定义结构了，直接用wchar_t，代码如下：

ifstream fin;
fin.open(filename, ios::binary);
//跳过unicode文本开头的两个字节0xFFFE（称作BOM，用于标识unicode编码）
fin.seek(2, ios::beg);
while (!fin.eof())
{
	wchar_t wch;
	fin.read((char *)(&wch), 2);
}

按行读取

有ifstream的成员函数getline(cha, size)，还有string类成员函数getline(fin, str)。你试试能不能用在unicode下使用？答案是否定的！因为getline函数默认在ANSI下使用，它对换行符的判断是基于ASCII码的换行（0x0D）和行开头标记（0x0A），如果把它用在unicode编码下，比如“不”字，unicode编码为0x0D4E。当getline函数执行到这，以为换行了，所以说会失效！那么unicode换行符以及行开头符的二进制是什么？双字节了，是0x0D00和0x0A00，这时候getline函数就失效了，怎么办，手动判断：

ifstream fin;
fin.open(filename, ios::binary);
size_t index = 2;
while (!fin.eof())
{
	fin.seek(index, ios::beg);
	wchar_t wch;
	fin.read((char *)(&wch), 2);
	if (wch == 0x000D) // 判断回车
	{
		strLineAnsi = ws2s(wstrLine);
		wstrLine.erase(0, wstrLine.size() + 1);
		iLine++;
		index += 4; // 跳过回车符和行开头符
	}
	else
	{
		wstrLine.append(1, wch);
		index += 2;
	}
}

理解unicode

这就需要char * 和 wchar_t *间的转换了，这个没有简便的方法，ANSI、UNICODE两种编码之间的转换，只能靠查表实现

C++提供了两个函数：wcstombs(_Dest, _Source, _Dsize) 从unicode编码转化为ANSI编码；mbstowcs(_Dest, _Source, _Dsize)反之

参数对应为const char*, const wchar_t*以及长度。这里在提供一个网上的函数，用于实现string和wstring的转换：

(1) 从wstring转为string

//从wstring转到string
//通过wchar_t * 转成char * 来实现
string ws2s(const wstring & ws)
{
	std::string curLocale = setlocale(LC_ALL, NULL); // curLocale = "C";
	setlocale(LC_ALL, "chs");
	//从wstring到wchar *
	const wchar_t* _Source = ws.c_str();

	//string对应的长度
	size_t _Dsize = 2 * ws.size() + 1;
	char *_Dest = new char[_Dsize];
	//初始化内存
	memset(_Dest,0,_Dsize);

	//从unicode码转成ANSI码
	wcstombs(_Dest, _Source, _Dsize);
	
	//从char *转为string
	string result = _Dest;

	delete []_Dest;
	return result;
}

(2) 从string转为wstring

//从string转到wstring
//通过char *到wchar * 来实现
std::wstring s2ws(const std::string & s)
{
	//从string转为char *
	const char * _Source = s.c_str();
	
	//获取字符串长度
	size_t _Dsize = s.size() + 1;
	wchar_t *_Dest = new wchar_t[_Dsize];
	//初始化内存
	wmemset(_Dest, 0, _Dsize);

	//从ANSI到Unicode码
	mbstowcs(_Dest,_Source,_Dsize);

	std::wstring result = _Dest;

	delete []_Dest;
	return result;
}

写到这里，就可以用C++读取unicode文本了，写的方法类似。

【上篇】傅老师课堂：最大子序列
【下篇】BSTR详解四 – BSTR包容类

作者: chara

该日志由 chara 于10年前发表在综合分类下，最后更新于 2014年01月29日.
转载请注明: 用C++读写unicode文本 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

用C++读写unicode文本

作者: chara

书签

最新文章New

本站推荐

返回首页