[发明专利]一种基于本体的密度自适应概念语义相似度计算方法有效
| 申请号: | 201810025611.X | 申请日: | 2018-01-11 |
| 公开(公告)号: | CN108256030B | 公开(公告)日: | 2020-10-23 |
| 发明(设计)人: | 李飞;廖乐健;何景 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/33;G06F40/30;G06F40/247 |
| 代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 王民盛 |
| 地址: | 100081 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 本体 密度 自适应 概念 语义 相似 计算方法 | ||
本发明涉及一种基于本体的密度自适应概念语义相似度计算方法,属于人工智能领域中的自然语言理解技术领域。该语义相似度计算方法通过合并边统计模型和信息理论推导出一种边权重函数,然后表示出概念的深度和概念间的最短路径权重,最终应用到传统的基于边的方法中计算概念语义相似度。本发明提出的模型具有与目前效果最好的基于信息内容方法同样的性能,不需要额外的参数,能够自适应不同密度对边的影响,具有很好地通用性,且时间复杂度比基于信息内容的方法具有明显的优势,是一种高性能和高效率的概念语义相似度方法,具有更好地应用前景。
技术领域
本发明涉及一种概念语义相似度计算方法,特别涉及一种基于本体的密度自适应概念语义相似度计算方法,属于人工智能领域中的自然语言理解技术领域。
背景技术
概念语义相似度计算是自然语言处理的一个基础研究内容,在智能检索、词义消歧、机器学习、拼写校正、机器翻译和信息抽取等领域都有广泛的应用。目前概念语义相似度计算的研究策略大体分为三类:一类是利用大规模的语料库进行统计,它主要将上下文信息的概率分布作为概念语义相似度的参照依据,这需要一个覆盖某一领域所有信息的语料库,显然这是很困难的。一类是根据某种世界知识来计算,主要是基于概念间结构层次关系的语义词典(本体)的方法,根据在语义词典中概念之间的上下位关系和同位关系来计算概念的相似度,与相关方法相比,这类方法在计算概念语义相似度的精度方面具有明显的优势;另一类是基于百科知识的方法,百科知识是一个半结构化语料库,且概念间的结构层次关系并不十分严谨,Zesch等在Comparing Wikipedia and German WordNet byevaluating semantic relatedness on multiple datasets(in Proceedings of HumanLanguage Technologies:The 2007Annual Conference of the North American Chapterof the Association for Computational Linguistics,pages 205-208,2007)中表明这类方法不是很好地适用于概念语义相似度,主要用于计算概念语义相关度。
目前,在语义词典分类方法中,基于边和基于信息内容(Information Content,IC)的方法是语义相似度研究的重点。边是本体层次结构的重要组成部分,因此基于边的概念语义相似度计算具有直观、易于理解和较低的计算复杂度等特点。然而,一个大型的词汇本体由于其具有宽广的覆盖领域,概念之间的连接可能存在不规则问题,这种不规则问题主要体现在两个方面:概念的密度不规则和概念的深度不规则。密度不规则指的是本体中通过“上下位”关系连接的概念结点的数目不同,深度不规则指的是概念在本体中的深度不同。基于边的方法通过合并概念的深度和概念间的最短路径,能够克服深度不规则问题,但是它不能解决密度不规则问题,这将导致相同的概念路径在不同的密度区域下表示不同的语义距离。目前,基于边的方法无法有效解决该问题,在国际标准测试集MC30中,优秀的基于边的方法与MC30的人工判定值的皮尔逊相关系数仅仅只有0.8。Zhu等在An efficientpath computing model for measuring semantic similarity using edge and density(in Knowledge And Information Systems,no.2-3,pages 1-33,2017)中通过一个平滑参数将区域密度加入边中来补偿路径(在本发明中称其为“密度补偿模型”)来解决密度不规则问题,但是这种方法是基于经验值,当本体被更新时,该模型需要重新调优参数以达到最优效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810025611.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种台灯控制系统的控制方法
- 下一篇:印刷电路板结构及其形成方法





