[发明专利]提取领域本体概念的词语排除法无效

专利信息
申请号: 201010502040.8 申请日: 2010-09-30
公开(公告)号: CN101963989A 公开(公告)日: 2011-02-02
发明(设计)人: 党延忠;于娟 申请(专利权)人: 大连理工大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 大连理工大学专利中心 21200 代理人: 梅洪玉
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明属于人工智能技术领域,涉及到领域本体概念的提取方法,特别涉及到词语排除法提取领域本体概念。本发明的技术方案是采用排除法自动提取领域本体概念集合,解决领域概念提取过程中时需要手工设定阈值困难的技术问题。在给定领域语料中出现的词语的集合时,该方法首先计算词语的领域相关度,删除领域不相关的词语;然后计算剩余词语的领域均匀度,删除在领域语料中分布不均匀的词语;如此,得到领域本体概念集合。该方法能够依据由前景语料(即领域语料)和背景语料(即非领域语料)组成的文本语料库自动地获取领域专有概念的集合,减少在领域概念提取过程中由于领域专家的知识结构等主观因素所造成的争执。
搜索关键词: 提取 领域 本体 概念 词语 排除法
【主权项】:
一种提取领域本体概念的词语排除法,其特征在于包括如下步骤:(1)计算词语与领域的领域相关度,删除词语集合中与领域不相关的词语;词语t与领域Dk的领域相关度计算公式为: DR t , k = lg ( P ( t | Cf k ) P ( t | Cb k ) ) × lg ( TF t , k ) 其中,P(t|Cfk),P(t|Cbk)分别为t在前景语料Cfk和背景语料Cbk中出现的概率;在实际计算时,将其分别估计为: E ( P ( t | Cf k ) ) = TF t , k mf k E ( P ( t | Cb k ) ) = Σ Cf 1 Cb k TF t , 1 mb k TF t , i = Σ c j Cf i tf t , j 其中,TFt,i是词语t在前景语料Cfi中出现的频率,mfi为Cfi中的文档数目,mbk为背景语料Cbk中的文档数目,tft,j为t在文档cj中出现的次数;(2)计算词语与领域的领域均匀度,删除尚未在领域中得到稳定使用的词语;领域均匀度反映领域正相关(DR>0)的词语在领域语料的各个文本中分布的均匀程度;词语t在领域Dk的领域均匀度计算公式为: DC t , k = Σ c j Cf k ( P ( t | c j ) × lg 1 P ( t | c j ) ) P(t|cj)为t在文档cj中出现的概率,cj为前景语料Cfk中的一个文档;本发明在实际计算时,将P(t|cj)估计为: E ( P ( t | c j ) ) = tf t , j TF t , k 其中,tft,j为词语t在领域前景语料Cfk中的第j个文本中出现的频率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201010502040.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top