[发明专利]一种本体概念及层次关系生成方法有效
申请号: | 201310114031.5 | 申请日: | 2013-04-03 |
公开(公告)号: | CN103207856A | 公开(公告)日: | 2013-07-17 |
发明(设计)人: | 王俊丽;王志成;赵卫东;柳先辉;余淼淼;梁梅连 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 上海天协和诚知识产权代理事务所 31216 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 本体 概念 层次 关系 生成 方法 | ||
1.一种本体概念及层次关系生成方法,其特征在于,包括如下步骤:
(1)文档预处理,构建本体术语集合:
给定关于某专业领域的一组文档集合,通过词性标注、词干提取、去掉停用词等预处理技术,获取语料库中的有用信息,进而构成术语集;
(2)词频统计,生成词频矩阵:
基于文档中术语出现频率的统计,生成一个文档-术语的频率矩阵,即词频矩阵,矩阵中的每一项记录了每个术语在语料库中每个文档中出现的频率;
(3)模型推断:
概率主题模型通过引入隐藏变量的中间层以表达文档和词之间的连接关系,根据语料库中的文档以及文档中观测到的词频矩阵,通过PAM概率主题模型的迭代,采用Gibbs抽样算法,统计推断出隐含变量的后验分布信息,每个概念主题关联的术语及其关联概率特征项;
(4)语义关联度判定,概念学习:
通过基于Wordnet的Jiang&Conrath语义相似度判定方法,结合已获得的后验分布信息,根据每个子主题分布下的一组术语间的语义相似度来抽象出一个概念;
(5)关系抽取:
根据步骤(3)得出的后验分布信息,重复所述步骤(4),直至所有的主题-词分布都抽样生成概念,得到概念集;再根据主题间的概率分布以及相似度计算方法,抽样得到超主题层对应的概念,从而得到概念集中概念间的层次关系。
2.根据权利要求1所述的方法,其特征在于,所述步骤(3)进一步包括下列步骤:
a)确定所使用PAM概率主题模型主题数,将术语集中的每个术语都随机初始化分布指派到某一个主题下,得到初始模型分布信息,变量服从后验分布:P(zw=ti,z′w=t′j|D,z-w,z-w,α,β);
b)进入PAM概率主题模型的迭代过程,采用Gibbs抽样算法,按照a)中所列后验分布公式将单词进行分配,得到模型分布的下一个状态;
C)确定抽样间距和抽样次数,重复执行步骤b)到一定的次数,得到目标最优分布,
其中变量zw和z′w是每个词的超主题分布和子主题分布,zw=ti,z′w=t′j表示将标记为w的单词分配给超主题i和子主题j′;-w表示除了词w以外的所有观测值和主题分布;D是整个文档集;α是超主题的先验,β是子主题的先验。
3.根据权利要求1所述的方法,其特征在于,所述步骤(4)采用Jiang&Conrath相似度计算方法,同时使用了共享父节点和被比较概念词所包含的信息内容,计算公式为:Sim(c1,c2)=-2lnpmis(c1,c2)-(lnp(c1)+lnp(c2)),
其中c为实例概念词,p(c)为实例概念词出现的概率,ic(c)=-lnp(c)为实例概念词c所包含的信息内容;为被比较概念词c1和c2的公共父节点概念词最小的那个。
4.根据权利要求1所述的方法,其特征在于,所述步骤(4)进一步包括下列子步骤:
a)对经过步骤(3)迭代得到的每个子主题-词分布对应的术语集合{t1,t2,...,tn}中的每个术语对进行Jiang&Conrath相似度计算sim(ti,tj)(1<i<n,1<j<n);
b)选择相似度值最大的术语对(tx,ty),根据Wordnet上位词得到公共父节点tz;
c)将得到的新的术语值tz并入集合T,取代tx和ty;
d)重复调用步骤(a)和(b),直至集合T中只有一个术语时止,最终得到的值就是提取出的概念。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310114031.5/1.html,转载请声明来源钻瓜专利网。