以文本方式查看主题 - 中文XML论坛 - 专业的XML技术讨论区 (http://bbs.xml.org.cn/index.asp) -- 『 Semantic Web(语义Web)/描述逻辑/本体 』 (http://bbs.xml.org.cn/list.asp?boardid=2) ---- 关于中文本体数据 (http://bbs.xml.org.cn/dispbbs.asp?boardid=2&rootid=&id=74214) |
-- 作者:xiangzhoux -- 发布时间:4/15/2009 12:08:00 PM -- 关于中文本体数据 我之前是研究图形图像识别的,也做了些小东西。我这几天才开始研究语义网络的。初衷其实只是想做个能够根据自然语言数据,查找,推理数据的机器人。 发现中文本体数据库是必不可少,不可或缺的。 一开始看到说东南大学有中文wordnet,结果发现做好都1年多了,也没公布出来。然后研究知网,发现知网公开的只有A-D的词。收费要7,8万一年,以后每年还要5000。 唉,这种基础科研的数据为什么都没有公开的呢,中文知识是全中国人民的财富,国家这么多科研基金投下去,连个公开本体库都没有。怎么促进技术创新进步呀。为啥美国人的就是公开的呢。 现在又看到Protege,不知道Protege有没有公开的中文OWL。谢谢大家!
|
-- 作者:xiangzhoux -- 发布时间:4/15/2009 12:13:00 PM -- 对了,我运气也真不好,知网去年推出了个知网在线,我前几天才看到的,发现他们漏洞很严重,30分钟写个程序,一个晚上就能把知网所有的9万多个词的DEF全部download下来。运气实在不好,昨天程序刚写好准备下载,就发现知网在线访问不了了,今天再一看,原来代码全部更新了,没那么容易全部下载了。放弃。 本身我倒是想过,借鉴wordnet, 知网的哲学,逻辑,定义。自己建一个数据库,然后从维基中文百科里,自动学习本体知识。不过维基里的文字我看了下也是随意性很大的。学习出来的知识应该没有人工整理的本体数据库好。 不过我觉得这也是一个可行的想法,我觉得本体知识库最好不是让专业人员一个个输入。最好是能够让机器自己去学习。比如上下位关系,只要机器读到,苹果,他不知道苹果的。他就问。苹果是什么,人就告诉他,苹果是一种水果,然后机器就知道苹果的上位是水果。最好是这样的。 |
-- 作者:xiangzhoux -- 发布时间:4/15/2009 4:26:00 PM -- 哪位大虾有中文的本体数据集的分享给我一份吧,万分感谢! |
-- 作者:xiangzhoux -- 发布时间:4/15/2009 10:42:00 PM -- 前面看到国外各个领域的本体库都已经公开共享出来了。 我们国家阿。。。 |
-- 作者:xiangzhoux -- 发布时间:4/16/2009 11:15:00 AM -- 哪位同学来讨论下不? 难道是我方法错了,其实不用中文本体库就可以做语义分析了。。。 还是大家其实都是在用protege自己手工建一遍自己领域里的本体库亚。 |
-- 作者:taurenshaman -- 发布时间:4/16/2009 4:02:00 PM -- 有个freebase.com,它提供了一个查询器,但是貌似不能通过URL查询,至少我一直没找到。 虽然是英文的,但是也有不少中文数据了 |
-- 作者:jpz6311whu -- 发布时间:4/16/2009 8:52:00 PM -- 楼主试试发邮件给知网和中文wordnet的作者,看能免费否索取一些数据作为研究使用,:) |
-- 作者:xiangzhoux -- 发布时间:4/16/2009 10:29:00 PM -- 知网免费的是A-D的词,郁闷的就是这样关联性都破坏掉了,没办法做实际的应用研究。 恩,我发邮件问问看吧只能。不过估计也不太行那,要是可以,他们应该早就公开了。 看到国外的本体库已经如此成熟,我们国家的现状,真是让人担忧那。 W3CHINA能考虑弄个公开的本体库不?比如只要你上传一部分本体,通过审核后,你就可以下载所有别人共享出来的自己做的本体。然后所有这些本体都用统一的,比如owl格式。这样慢慢积累下去。说不定几年后,这个库会发挥出巨大的作用。 |
-- 作者:xiangzhoux -- 发布时间:4/16/2009 10:33:00 PM -- 知网那个我放弃下载是因为他51就要开始收费了,来不及再破解他的加密了。所以算了。 |
-- 作者:xiangzhoux -- 发布时间:4/16/2009 10:37:00 PM --
哈哈,谢谢:)我看看这个什么东东。 |
-- 作者:xiangzhoux -- 发布时间:4/17/2009 3:19:00 PM -- W3CHINA能考虑弄个公开的本体库不?比如只要你上传一部分本体,通过审核后,你就可以下载所有别人共享出来的自己做的本体。然后所有这些本体都用统一的,比如owl格式。这样慢慢积累下去。说不定几年后,这个库会发挥出巨大的作用。 |
-- 作者:jpz6311whu -- 发布时间:4/17/2009 11:10:00 PM -- 这个想法不错 楼主先共享一下你们的中文本体库,抛砖引玉:) |
W 3 C h i n a ( since 2003 ) 旗 下 站 点 苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》 |
58.594ms |