[发明专利]提取领域本体概念的词语排除法无效
申请号: | 201010502040.8 | 申请日: | 2010-09-30 |
公开(公告)号: | CN101963989A | 公开(公告)日: | 2011-02-02 |
发明(设计)人: | 党延忠;于娟 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 梅洪玉 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于人工智能技术领域,涉及到领域本体概念的提取方法,特别涉及到词语排除法提取领域本体概念。本发明的技术方案是采用排除法自动提取领域本体概念集合,解决领域概念提取过程中时需要手工设定阈值困难的技术问题。在给定领域语料中出现的词语的集合时,该方法首先计算词语的领域相关度,删除领域不相关的词语;然后计算剩余词语的领域均匀度,删除在领域语料中分布不均匀的词语;如此,得到领域本体概念集合。该方法能够依据由前景语料(即领域语料)和背景语料(即非领域语料)组成的文本语料库自动地获取领域专有概念的集合,减少在领域概念提取过程中由于领域专家的知识结构等主观因素所造成的争执。 | ||
搜索关键词: | 提取 领域 本体 概念 词语 排除法 | ||
【主权项】:
一种提取领域本体概念的词语排除法,其特征在于包括如下步骤:(1)计算词语与领域的领域相关度,删除词语集合中与领域不相关的词语;词语t与领域Dk的领域相关度计算公式为: DR t , k = lg ( P ( t | Cf k ) P ( t | Cb k ) ) × lg ( TF t , k ) 其中,P(t|Cfk),P(t|Cbk)分别为t在前景语料Cfk和背景语料Cbk中出现的概率;在实际计算时,将其分别估计为: E ( P ( t | Cf k ) ) = TF t , k mf k E ( P ( t | Cb k ) ) = Σ Cf 1 ∈ Cb k TF t , 1 mb k TF t , i = Σ c j ∈ Cf i tf t , j 其中,TFt,i是词语t在前景语料Cfi中出现的频率,mfi为Cfi中的文档数目,mbk为背景语料Cbk中的文档数目,tft,j为t在文档cj中出现的次数;(2)计算词语与领域的领域均匀度,删除尚未在领域中得到稳定使用的词语;领域均匀度反映领域正相关(DR>0)的词语在领域语料的各个文本中分布的均匀程度;词语t在领域Dk的领域均匀度计算公式为: DC t , k = Σ c j ∈ Cf k ( P ( t | c j ) × lg 1 P ( t | c j ) ) P(t|cj)为t在文档cj中出现的概率,cj为前景语料Cfk中的一个文档;本发明在实际计算时,将P(t|cj)估计为: E ( P ( t | c j ) ) = tf t , j TF t , k 其中,tft,j为词语t在领域前景语料Cfk中的第j个文本中出现的频率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010502040.8/,转载请声明来源钻瓜专利网。
- 上一篇:重放方法和设备
- 下一篇:用于有轨车辆的储能器系统