[发明专利]一种基于本体语义相似度的医学问答方法有效
申请号: | 201910867117.2 | 申请日: | 2019-09-12 |
公开(公告)号: | CN110706807B | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 郭新龙 | 申请(专利权)人: | 北京四海心通科技有限公司 |
主分类号: | G16H50/20 | 分类号: | G16H50/20;G06F16/33;G06F16/332 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 本体 语义 相似 医学 问答 方法 | ||
1.一种基于本体语义相似度的医学问答方法,其特征在于,包括:
根据预设词库对用户提问的自然语言问句进行分词处理;
对于分词后的问句中的专业词汇采用基于本体的概念相似度方法计算词语语义相似度,对于其他词汇采用知网结合本体计算词语语义相似度;
根据计算出的词语语义相似度,计算统计句子语义相似度和句子结构相似度,并将计算出的句子语义相似度和句子结构相似度进行综合,计算出用户提问的问句与预设语料库中问句的句子相似度;
根据计算出的句子相似度,从预设问题库中抽取句子相似度大于或等于预设相似度阈值的问句及其答案作为用户提问问题的答案;所述预设问题库以PA结构为基础动态构建,所述PA结构由谓词和语义组成,所述本体分为事件类本体和论元类本体;所述事件类本体对应着PA结构中的谓词,描述的是动词性概念,所述论元类本体对应着PA结构中的论元,描述的是名词性概念;
其中,所述计算统计句子结构相似度,具体为:
采用基于规则的方法计算句子结构相似度,所述基于规则的方法结合词距,句长,同时考虑词性的作用,综合三个方面确定句子的结构相似度;其中,
词距相似度的公式如下:
式中,SameDIs(Qi)表示Q1和Q2中相同关键词在Qi中的距离,若关键词重复出现,则以最大距离为准,Dis(Qi)表示句子关键词中最左及最右关键词之间的距离,若关键词重复出现,则以最小距离为准;
句长相似度的公式如下:
式中,Len(Q1)和Len(Q2)分别表示两个句子的长度;
词性相似度的公式如下:
式中,WordPro(Q1)和WordPro(Q2)分别表示句子Q1和Q2中关键词的权值,SameWordPro(Q1,Q2)表示句子Q1和Q2中相同关键词的权值;当句子Q1和Q2中关键词全都相同时,分母达到最小值;
结合所述词距相似度、句长相似度,以及词性相似度,将三种相似度进行线性融合,得到句子结构相似度为:
SynSim=λ1LenSim(Q1,Q2)+λ2DisSim(Q1,Q2)+λ3WordProSim(Q1,Q2) (4)
式中,λ1,λ2,λ3为权重系数,代表对三种相似度的偏重程度;
所述计算统计句子语义相似度具体为:基于概念语义相似度计算句子语义相似度,所述概念语义相似度计算包括基于距离的概念语义相似度计算、基于属性的概念语义相似度计算和基于主成分分析的概念语义相似度混合计算;其中,所述基于距离的概念语义相似度计算,具体为:
考虑领域本体类的层次关系,利用语义重合度、语义层次深度、语义距离和语义距离多种因素,来计算概念的语义相似度;其中,
语义重合度计算公式为:
式中,ParentNum(i)表示i的父节点个数;分子表示a和b相同父节点的个数;分母表示a和b父节点个数较多的那个;
语义层次深度是指概念在结构树中所处层次的深度;两个概念的语义相似度与他们深度之和呈正相关关系,与他们的深度之差呈负相关关系;假设根节点R的深度为1,i节点的父节点用Parent(i)表示,则非根节点i在本体结构树中的深度公式为:
Depth(i)=Depth(Parent(i))+1 (6)
本体树T的深度为:
Depth(T)=Max(Depth(i)) (7)
即本体树的深度取树中节点的最大深度;
语义距离对应的相似度公式为:
式中,Dis(a,b)表示节点a和b在本体结构树中的最短路径边数;
语义密度对应的相似度公式如下:
式中,BrotherNum(i)为节点i的兄弟节点的个数;
基于公式(5)、公式(6)、公式(7)、公式(8)和公式(9),得到基于距离的概念语义相似度的计算模型:
Sim1(a,b)=αSimoverlap(a,b)-βSimDis(a,b)-γSimDen(a,b) (10)
式中,α,β,γ为权重系数;
所述基于属性的概念语义相似度计算的模型如下:
Sim2(c,d)=αProperties(c∩d)-βProperties(c-d)-γProperties(d-c) (11)
其中,Properties(c∩d)表示概念c和d所拥有的公共属性的集合,Properties(c-d)表示概念c拥有而概念d不拥有的属性集合,Properties(d-c)则表示概念d拥有而概念c不拥有的属性集合;
所述基于主成分分析的概念语义相似度混合计算,具体为:
基于主成分分析法对基于距离因素和基于属性因素计算的数据进行分析,动态计算出各个因素的权重;计算出权重后对多因素的计算结果进行加权线性相加得到最终概念语义相似度;其过程包括:
将基于距离的相似度和基于属性的相似度作为两个维度,通过多个样本的计算得到相似度矩阵作为输入样本矩阵;
对所述输入样本矩阵进行矩阵标准化变换为标准矩阵Z,并求出相关系数矩阵R1;
求出相关系数矩阵R1的特征方程的32个特征根以确定主成分;
解方程组单位特征向量;
转换标准化后的指标变量为主成分;
将两个主成分进行加权并线性求和,即得最终概念语义相似度值,相应的权值为各个主成分的贡献率;
设句子Q1和Q2分别含有m个概念W11…W1m和n个概念W21…W2n;
所述基于概念语义相似度计算句子语义相似度,具体为:
从Q1中选出一个概念分别与Q2中的n个概念,计算概念语义相似度,直至Q1中概念循环完为止,得到概念语义相似度矩阵:
计算第一个概念集与第二个概念集的概念语义平均最大相似度
计算第二个概念集与第一个概念集的概念的平均最大相似度
计算公式(13)和(14)结果,求平均值,得到句子语义相似度
所述用户提问的问句与预设语料库中问句的句子相似度定义如下:
Sim=(1-η)SynSim+ηSemSim (16)
其中,η为权重系数,当η为1时,表示只使用语义相似度;当η为0时表示只使用句子结构相似度;
所述根据预设词库对用户提问的自然语言问句进行分词处理,具体为:
根据预设词库对用户提问的自然语言问句通过正向最大匹配的方法进行分词处理,并将其中的未登记词借助于预设分词工具添加到预设词库中;
在所述根据计算出的句子相似度,从预设问题库中抽取句子相似度大于或等于预设相似度阈值的问句及其答案后,所述方法还包括:
按照句子相似度大小对抽取的问句及其答案进行排序,选取前五个问句及其答案作为用户提问问题的答案。
2.如权利要求1所述的基于本体语义相似度的医学问答方法,其特征在于,在所述根据预设词库对用户提问的自然语言问句进行分词处理后,所述方法还包括:对于分好词的问句根据词的类型,将属于停用词库的词删除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京四海心通科技有限公司,未经北京四海心通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910867117.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于医疗行业搜索框检索方法
- 下一篇:动脉瘤破裂状态预测方法和装置