W3CHINA Blog首页    管理页面    写新日志    退出

Blue blue sky

[七天乐]五一第六天:ICU+Xerces-C的问题
小工头 发表于 2005/5/8 10:47:30

今天开始试着把ICU和Xerces-C结合在一起,使Xerces-C能够解析带有中文字符的XML文档。做了一整天的实验,始终没有成功。在实验中,得到以下结论: 一,ICU本身没有问题。使用ICU,将中文字符串转换成Unicode,再从Unicode转换回中文,得到的结果是一样的。不过要注意的是,将中文字符串转换成Unicode的时候字符串必须以'\0'结尾,调用转换函数时的长度参数时不包括\0',否则再转换回来会多出几个怪字符; 二,ICU不能很好地处理中英文字符混合字符串。如果直接使用ICU转换此类字符串再转换回来,ICU会在每一个英文字符后面都插入一个'\0'。怀疑ICU转过去的时候用了UTF-16,再转回来的时候没有做相应的处理; 三,Xerces-C不能直接处理UTF-8。分别使用ICU和WINAPI两种方法把中文字符串转换为UTF-8,得到的结果是一致的。用Xerces-C解析UTF8编码的XML文档,报出fetal error。试过指定encoding="UTF-8"以及去掉encoding,都不行。(刚刚发现UTF-8编码的XML文档中每个英文字符后面也有'\0',难道是因为这个?值得深入探讨) 四,ICU的文档和例子不全,很多函数调用的参数有限定范围,但是找不到详细描述的文档,也找不到合适的例子。

阅读全文(2969) | 回复(0) | 编辑 | 精华

 



发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)

 
 



This is home

.: 公告

有人的地方就有恩怨

有恩怨的地方就是江湖

人在江湖漂,谁能不挨刀


Bloginess

«August 2025»
12
3456789
10111213141516
17181920212223
24252627282930
31

.: 我的分类(专题)

首页(629)
杂项(69)
我喜欢过的声音(35)
耳机评测(18)
七天乐(127)
工作八卦(174)


In the Bowl

.: 最新日志

变化:俺的2012
迟来的总结,俺的2011
暂停更新:娶了媳妇不上网
一次坦诚的大会
妹子,妹子!
领导满月
当了领导能怎样
俺的播放列表
俺的重构总结
开会的故事

.: 最新回复

回复:迟来的总结,俺的2011
回复:暂停更新:娶了媳妇不上网
回复:暂停更新:娶了媳妇不上网
回复:小学生作文之记一次拔河比赛
回复:暂停更新:娶了媳妇不上网
回复:暂停更新:娶了媳妇不上网
回复:暂停更新:娶了媳妇不上网
回复:一次坦诚的大会
回复:一次坦诚的大会
回复:一次坦诚的大会


The Fishkeeper
blog名称:少年包工头的工作日记
日志总数:629
评论数量:1458
留言数量:56
访问次数:8972952
建立时间:2004年12月8日



Text Me

.: 留言板

签写新留言

你太客气了
工作是为了更好的生活。。。
飘过!
初烧耳机
路过留声
自动浇花
节日快乐
向您请教
HAHA
咨询下呵呵


Other Fish in the Sea

.: 链接



Lake JJ

真!鱼家MM

传说中的99

王小四的自留地

挣扎中的职场新人tintin同学




站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.364 second(s), page refreshed 144765999 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号