[发明专利]基于词句分布表示的相似病例推荐系统及相应的方法有效
申请号: | 201510969657.3 | 申请日: | 2015-12-21 |
公开(公告)号: | CN105653840B | 公开(公告)日: | 2019-01-04 |
发明(设计)人: | 赵一飞;王飞跃;施小博 | 申请(专利权)人: | 青岛中科慧康科技有限公司;青岛智能产业技术研究院 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G16H50/20 |
代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 高洋 |
地址: | 266109 山东省青岛市高新区*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及自然语言处理、信息检索和医疗数据挖掘等技术领域。尤其涉及一种应用于互联网问诊平台中的基于词句分布表示的相似病例推荐系统及相应的方法。本发明的系统包含数据模块、推荐模块、评估模块和在线模块;所述数据模块包含数据采集子模块、数据存储子模块、数据预处理子模块、分词子模块和词向量训练子模块;所述推荐模块包含决策子模块、语义相似度算法子模块、推荐排序子模块;所述在线模块包含推荐子模块和反馈子模块;数据模块将有效数据传送给推荐模块,推荐模块接收来自数据模块的数据和评估模块的指标,推荐相关病例,将推荐结果传递至在线模块;在线模块将推荐结果传递给用户,同时用户将推荐结果的反馈返回在线模块。 | ||
搜索关键词: | 基于 词句 分布 表示 相似 病例 推荐 系统 相应 方法 | ||
【主权项】:
1.一种基于词句分布表示的相似病例推荐的系统,其特征在于:包含数据模块、推荐模块、评估模块和在线模块;所述数据模块包含数据采集子模块、数据存储子模块、数据预处理子模块、分词子模块和词向量训练子模块;所述推荐模块包含决策子模块、语义相似度算法子模块、推荐排序子模块,所述语义相似度算法子模块包括若干算法模型,所述算法模型包括基于词语分布表示的模型及基于句子分布表示的模型;所述基于词语分布表示的模型将两个句子的相似度转换成条件概率分布的计算,并进一步转换成词语的生成概率,所述基于句子分布表示的模型将病情描述的句子映射到向量空间,将计算句子相似度问题转化为计算两个向量之间的距离问题;用向量表示的句子相似度的计算方法包括方法一和方法二;所述方法一为:用户描述的句子向量由组成该句子的序列的词语向量构成,句子的向量会由着词语的顺序和内容不同而差异,词语的向量由随机梯度下降和反向传播算法得到,在固定的语料库中训练完成后的词语向量是固定的,得到句子Q和句子D对应的向量
和向量
之后,计算句子Q和句子D的语义相似度sim(Q,D),可表示为:
其中,n表示语义向量的维数,
和
分别表示当前用户病情描述和历史用户病情描述的句子向量的第i维度;所述方法二为:语义相似度sim(Q,D)可转换为条件概率计算:sim(Q,D)≈P(Q|D)=Πw∈QP(w|D)其中,P(w|D)=(1‑λ)sim(w,D)+λsim(w,Conll),Q是用户提交的病情描述,D是历史数据库中已经得到医生回答的病情描述,w表示句子中的词语,其中sim(w,D)表示词向量和句子向量之间的相似度即两个向量之间的余弦距离,句子Q和句子D之间的相似度即通过条件概率计算;所述分词子模块与词向量训练子模块和推荐模块的中的语义相似度算法子模块相连,按需求对存储数据进行分词;词向量训练子模块与推荐模块中的语义相似度算法子模块相连,可将词句映射至多维连续空间,将词语分布表示成向量形式,并定期更新;所述决策子模块与评估模块相连,所述决策子模块与所述语义相似度算法子模块相连,所述决策子模块根据其评估指标确定语义相似度算法模型的选择;所述在线模块包含推荐子模块和反馈子模块;数据模块将有效数据传送给推荐模块,推荐模块接收来自数据模块的数据和评估模块的指标,推荐相关病例,将推荐结果传递至在线模块;在线模块将推荐结果传递给用户,同时用户将推荐结果的反馈返回在线模块。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛中科慧康科技有限公司;青岛智能产业技术研究院,未经青岛中科慧康科技有限公司;青岛智能产业技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510969657.3/,转载请声明来源钻瓜专利网。