[发明专利]一种基于本体语义相似度的医学问答方法有效
申请号: | 201910867117.2 | 申请日: | 2019-09-12 |
公开(公告)号: | CN110706807B | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 郭新龙 | 申请(专利权)人: | 北京四海心通科技有限公司 |
主分类号: | G16H50/20 | 分类号: | G16H50/20;G06F16/33;G06F16/332 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 本体 语义 相似 医学 问答 方法 | ||
本发明提供一种基于本体语义相似度的医学问答方法,通过将医学领域用户常见问题与语义分析,语义相似度计算,本体等相关技术结合,提出了一种综合的语义相似度计算方法,并结合浅层语义分析和文本分析技术,提出了基于语义相似度的医学问答方法。本发明中的语义相似度计算方法结合了句子表层的相似度,如句长,词性等,以及基于概念词的语义相似度,并且对于概念词相似度的计算采用了属性和距离综合的方法。使得本发明的医学问答系统可实现五大类问题(方式、时间、程度、数量、实体)处理,达到80%以上的准确率。五类问题基本涵盖基础医学领域的学科问题,较好地实现了系统的功能。
技术领域
本发明涉及问答系统技术领域,特别是指一种基于本体语义相似度的医学问答方法。
背景技术
问答系统是融合了自然语言处理和信息检索技术的产品。根据涉及范围的不同,可以分为开放领域和限定领域两个大类。当前领域本体在问答系统中的应用主要体现在对领域概念的分类方面,缺乏对用户问句的语义理解和处理。
此外,自然语言处理会涉及到语义相似度的计算,其定义如下:
Dekang Lira认为任何两个词语的相似度取决于它们的共性(Commonality)和个性(Differences),然后从信息论的角度给出了定义公式:
其中,分子表示描述A,B共性所需要的信息量;分母表示完整地描述A,B所需要的信息量。刘群、李素建以基于实例的机器翻译为背景,认为语义相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。两个词语,如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大,二者的相似度就越高,否则相似度就越低。对于两个词语W1、W2,如果记其相似度为Sim(W1,W2),其词语距离为Dis(Wl,W2),根据刘群、李素建的公式:
其中是α一个可调节的参数。n的含义是当相似度为0.5时的词语距离值。
词语距离和词语相似度是一对词语的相同关系特征的不同表现形式,如果两个概念之间的语义距离越近,就认为它们越相似,因此二者之间可以给出一个简单对应关系:
其中,Dis(W1,W2)为数中W1、W2所代表的结点在数中的距离,k为比例系数。
一般地说,相似度一般被定义为一个0到1之间的实数。特别地,当两个词语完全一样时,它们的相似度为1;当两个词语是完全不同的概念时,它们的相似度接近于0。
目前,关于语义相似度的计算主要有以下方式:
1、基于句法结构的相似度算法
基于树的语义相似度计算的算法大体上分为两种:一是基于距离的语义相似性测度;二是基于信息内容的语义相似性测度。一般是利用一部语义词典(如Wordnet,Hownet),语义词典都是将所有的词组织在一棵或几棵树状的层次结构中。在一棵树状图中,任何两个结点之间有且只有一条路径。于是,这条路径的长度就可以作为这两个词语概念间语义距离的一种度量;而且随着概念所处结点越深,其所包含的语义信息越丰富,越能准确地决定概念的性质,它们对语义相似度起着决定作用。
2、基于本体的语义相似度算法
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京四海心通科技有限公司,未经北京四海心通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910867117.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于医疗行业搜索框检索方法
- 下一篇:动脉瘤破裂状态预测方法和装置