少年包工头的工作日记--转贴一篇文章，Xerces-C重现曙光

W3CHINA Blog首页 管理页面写新日志退出

Blue blue sky

小工头发表于 2005/5/8 21:14:49

如何利用Xerces C++正确处理XML文档中的中文作者: 张志强 1．背景介绍 Apache的Xerces C++是广大c/c++程序员非常喜欢使用的XML解析器之一。主要原因是其本身是一个开放源代码的项目而且提供不同平台下的库和源代码，故深受广大c/c++程序员的欢迎。 Xerces C++可以到以下网站下载:1) http://xml.apache.org/ 2) http://www.vckbase.com/tools 2．问题描述根据软件开发的要求，作者开发了一个文件特征识别软件，该软件可根据文件特有的特征识别出文件的类型。要求将文件特征保存在XML文件中。根据要求作者选择了Xerces C++作为XML解析器。但发现出了一个严重的问题：被解析的XML文件中不能包含中文，否则中文将不能正确的解析。作者研究了Xerces C++提供的例子程序，发现这些例子程序解析的结果也是错误的。只有DOMPrint程序例外。这肯定了Xerces C++本身是支持中文的。XML编码： <pdf ext="pdf" description="pdf文档"> <magic offset="0" type="string" value="\x25\x50\x44\x46" /></pdf>SAXPrint程序解析结果：<pdf ext="pdf" description="pdf文档"> <magic offset="0" type="string" value="\x25\x50\x44\x46"></magic></pdf>为此，作者曾经在IBM的中文网站发现一篇文章《如何利用Xerces-C++解析包含中文字符的XML文档》并将其所描述的办法应用到程序中。但后来由于机器发生故障，硬盘上的数据全部丢失。不得不把以前做过的事重做一遍。因一时在IBM的网站上未找到上面提到的贴子，而且由于当时捡现成的没有用心研究其实现方法，故不得不仔细分析Xerces C++提供的源代码，自己动手解决中文问题。为了今后广大C++程序员碰到类似问题时不会像我一样痛苦。我也决定将自己的研究结果公布出来供大家分享。如果谁有更好的解决办法不要忘记告诉我。 3．原因分析上面的例子里，程序将“文档”两个中文字符解析成了乱码。但DOMPrint程序确能够正确解析。这表明Xerces C++对国际编码肯定是支持的。作者通过对DOMPrint和SAXPrint两个程序的比较跟踪发现问题的根本就是XMLFormatter设置的问题。由于SAX是基于事件的，大多数使用者只是简单的解析XML文档，XMLFormatter的使用比较麻烦。而DOMPrint也是通过标准的输出程序输出的屏幕上的，我们不能直接使用输出结果。由于XML解析器解析的字符串都是XMLCh格式的，一个字符占用一个字节，而汉字字符确要占用两个字节。故若不做适当的转换，汉字的输出结果就变成乱码了。 4．解决办法找到原因就有解决问题的方法了，明显的需要一个把解析出来的XMLCh转换成普通的字符串。这是解析，如果我们需要自己写入XML文档也有一个把普通字符串转换为XMLCh的过程。我把这两个转换过程封装在了一个名为“XMLStringTranslate”的类中。使用如下： void SAXMagicHandlers::startElement(const XMLCh* const name,AttributeList& attributes){ XMLStringTranslate stringTranslate("gb2312"); string strName=stringTranslate.translate(name);//得到可包含汉字字符的普通字符串 string strValue="pdf文档"; XMLCh * value= stringTranslate.translate(strValue.c_str());//将普通字符串转换成XMLCh串}采用XMLStringTranslate后的实际运行结果： <pdf ext="pdf" description="pdf文档"> <magic offset="0" type="string" value="\x25\x50\x44\x46"></magic></pdf>特别说明：由于为了防止内存释放问题，将普通字符串转换成XMLCh *的translate函数返回的是类的一个成员变量，故下面的代码是不允许的： XMLCh * value1= stringTranslate.translate("测试1")；XMLCh * value2= stringTranslate.translate("测试2")；这样使用的结果是value1和value2的值将是一样的（因为其内存地址根本就是一样的）。正确的使用方法是通过内存拷贝或则其他方法，将value1的值保存起来或则及时使用，否则value2将影响value1的值。读后感：丫只说了要做一个把XMLCh转成char的类，却没把实现的代码贴出来，狡猾狡猾地！不过俺验证了一下，使用DOM解析的时候确实能得到几个乱码（看起来很眼熟，俺好像用ICU转换的时候看到过），而不是象打印时候那样的全空。关键在这里： const XMLCh *ttt = pAttributeNode->getValue(); sDOMValue = XMLString::transcode(ttt); ttt是有值的，但是sDOMValue就空了。如果能换个方法把XMLCh转成char，也许可以解决这个Xerces-C支持中文的问题。

阅读全文(2469) | 回复(0) | 编辑 | 精华

发表评论：