以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 Semantic Web(语义Web)/描述逻辑/本体 』  (http://bbs.xml.org.cn/list.asp?boardid=2)
----  关于中文本体数据  (http://bbs.xml.org.cn/dispbbs.asp?boardid=2&rootid=&id=74214)


--  作者:xiangzhoux
--  发布时间:4/15/2009 12:08:00 PM

--  关于中文本体数据
我之前是研究图形图像识别的,也做了些小东西。我这几天才开始研究语义网络的。初衷其实只是想做个能够根据自然语言数据,查找,推理数据的机器人。

发现中文本体数据库是必不可少,不可或缺的。

一开始看到说东南大学有中文wordnet,结果发现做好都1年多了,也没公布出来。然后研究知网,发现知网公开的只有A-D的词。收费要7,8万一年,以后每年还要5000。

唉,这种基础科研的数据为什么都没有公开的呢,中文知识是全中国人民的财富,国家这么多科研基金投下去,连个公开本体库都没有。怎么促进技术创新进步呀。为啥美国人的就是公开的呢。

现在又看到Protege,不知道Protege有没有公开的中文OWL。谢谢大家!


--  作者:xiangzhoux
--  发布时间:4/15/2009 12:13:00 PM

--  
对了,我运气也真不好,知网去年推出了个知网在线,我前几天才看到的,发现他们漏洞很严重,30分钟写个程序,一个晚上就能把知网所有的9万多个词的DEF全部download下来。运气实在不好,昨天程序刚写好准备下载,就发现知网在线访问不了了,今天再一看,原来代码全部更新了,没那么容易全部下载了。放弃。

本身我倒是想过,借鉴wordnet, 知网的哲学,逻辑,定义。自己建一个数据库,然后从维基中文百科里,自动学习本体知识。不过维基里的文字我看了下也是随意性很大的。学习出来的知识应该没有人工整理的本体数据库好。

不过我觉得这也是一个可行的想法,我觉得本体知识库最好不是让专业人员一个个输入。最好是能够让机器自己去学习。比如上下位关系,只要机器读到,苹果,他不知道苹果的。他就问。苹果是什么,人就告诉他,苹果是一种水果,然后机器就知道苹果的上位是水果。最好是这样的。


--  作者:xiangzhoux
--  发布时间:4/15/2009 4:26:00 PM

--  
哪位大虾有中文的本体数据集的分享给我一份吧,万分感谢!
--  作者:xiangzhoux
--  发布时间:4/15/2009 10:42:00 PM

--  
前面看到国外各个领域的本体库都已经公开共享出来了。
我们国家阿。。。
--  作者:xiangzhoux
--  发布时间:4/16/2009 11:15:00 AM

--  
哪位同学来讨论下不?

难道是我方法错了,其实不用中文本体库就可以做语义分析了。。。

还是大家其实都是在用protege自己手工建一遍自己领域里的本体库亚。


--  作者:taurenshaman
--  发布时间:4/16/2009 4:02:00 PM

--  
有个freebase.com,它提供了一个查询器,但是貌似不能通过URL查询,至少我一直没找到。
虽然是英文的,但是也有不少中文数据了
--  作者:jpz6311whu
--  发布时间:4/16/2009 8:52:00 PM

--  
楼主试试发邮件给知网和中文wordnet的作者,看能免费否索取一些数据作为研究使用,:)
--  作者:xiangzhoux
--  发布时间:4/16/2009 10:29:00 PM

--  
知网免费的是A-D的词,郁闷的就是这样关联性都破坏掉了,没办法做实际的应用研究。
恩,我发邮件问问看吧只能。不过估计也不太行那,要是可以,他们应该早就公开了。

看到国外的本体库已经如此成熟,我们国家的现状,真是让人担忧那。

W3CHINA能考虑弄个公开的本体库不?比如只要你上传一部分本体,通过审核后,你就可以下载所有别人共享出来的自己做的本体。然后所有这些本体都用统一的,比如owl格式。这样慢慢积累下去。说不定几年后,这个库会发挥出巨大的作用。


--  作者:xiangzhoux
--  发布时间:4/16/2009 10:33:00 PM

--  
知网那个我放弃下载是因为他51就要开始收费了,来不及再破解他的加密了。所以算了。
--  作者:xiangzhoux
--  发布时间:4/16/2009 10:37:00 PM

--  
以下是引用taurenshaman在2009-4-16 16:02:00的发言:
有个freebase.com,它提供了一个查询器,但是貌似不能通过URL查询,至少我一直没找到。
虽然是英文的,但是也有不少中文数据了


哈哈,谢谢:)我看看这个什么东东。
--  作者:xiangzhoux
--  发布时间:4/17/2009 3:19:00 PM

--  
W3CHINA能考虑弄个公开的本体库不?比如只要你上传一部分本体,通过审核后,你就可以下载所有别人共享出来的自己做的本体。然后所有这些本体都用统一的,比如owl格式。这样慢慢积累下去。说不定几年后,这个库会发挥出巨大的作用。

--  作者:jpz6311whu
--  发布时间:4/17/2009 11:10:00 PM

--  
这个想法不错
楼主先共享一下你们的中文本体库,抛砖引玉:)
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
58.594ms