[发明专利]一种基于词向量的医疗分诊方法及系统有效
| 申请号: | 201910366790.8 | 申请日: | 2019-05-05 |
| 公开(公告)号: | CN110246572B | 公开(公告)日: | 2021-07-13 |
| 发明(设计)人: | 江瑞;黄浩 | 申请(专利权)人: | 清华大学 |
| 主分类号: | G16H40/20 | 分类号: | G16H40/20;G16H50/20 |
| 代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 管士涛;曹素云 |
| 地址: | 100084 北京市海淀区1*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 向量 医疗 方法 系统 | ||
本发明提供了一种基于词向量的医疗分诊方法及系统,所述方法包括获取用户的症状数据信息;判断获取的用户症状数据信息是用户输入还是问诊数据,若是用户输入数据则执行分诊步骤,若是问诊数据则执行问诊步骤;基于所述症状数据信息查找与其对应的词向量,与门诊向量求余弦相似度,得到分诊概率,作为分诊结果;通过分诊概率求熵,并代入预先设置的症状向量列表,将概率分布的熵最小化,从而找到需要问诊的症状,获得问诊结果。通过本发明的技术方案能够帮助患者确认自己需要挂号的科室,且帮助医院提高分诊准确性,提高流程效率和节约成本。
技术领域
本发明属于医学生物技术领域,涉及一种基于词向量的医疗分诊方法及系统。
背景技术
综合性医院科室种类繁多,患者自身难以判断自己应该就诊的科室。大型医院一般都设有分诊台,由护士进行现场分诊,根据患者所表现出的症状给出挂号科室的建议。
一方面,分诊需要经验丰富的护士,对每一个门诊和疾病症状都有所了解,但事实上这是很难做到的;另一方面,大的三甲医院往往病人众多,分诊效率比较低,且忙中容易出错,而且设立多个分诊台会增加医院成本。
此外,通过公众号等方式进行网上挂号越来越普遍,然而患者难以确定自己因该挂号的科室,这给他们带来了额外的困难。
因此,一个有效的问诊分诊算法能够帮助患者确认自己需要挂号的科室,且帮助医院提高分诊准确性,提高流程效率和节约成本。
发明内容
为解决上述技术问题,本发明提出了一种基于词向量的医疗分诊方法及系统,从而帮助患者确认自己需要挂号的科室,且帮助医院提高分诊准确性,提高流程效率和节约成本。
根据本发明的一个实施例,本发明提供了一种基于词向量的医疗分诊方法,所述方法包括:
步骤一、获取用户的症状数据信息;
步骤二、判断获取的用户症状数据信息是用户输入还是问诊数据,若是用户输入数据则执行步骤三,若是问诊数据则执行步骤四;
步骤三、基于所述症状数据信息查找与其对应的词向量,与门诊向量求余弦相似度,得到分诊概率,作为分诊结果;
步骤四、通过分诊概率求熵,并代入预先设置的症状向量列表,将概率分布的熵最小化,从而找到需要问诊的症状,获得问诊结果。
优选的,所述获取用户的症状数据信息之前,还包括构建词向量,其中所述构建词向量包括病症向量抽取、疾病向量与门诊向量的构建。
优选的,所述病症向量的抽取,具体为:
(1)使用Jieba分词工具对语料进行分词,得到T个单词,其集合为W;同时,导入180个症状,其集合为S,作为自定义词典,进行强制分词,即
S∈W (1)
(2)使用Word2Vec工具,对分词后的语料进行训练得到词向量模型M,得到每一个单词Wi的向量表示Vi,其中向量均为180维;
(3)取其中的180个症状单词,得到症状对应的180个向量,用集合Sv表示,则表示第i个症状的向量。
优选的,使用《疾病大全》作为训练词向量的语料。
优选的,所述构建疾病向量与门诊向量,具体为:
(1)对180个症状向量进行正交规范化,使得每个症状向量的均值为0、标准差为1;
(2)对于每一个症状向量定义其第j个分量为代表其在第j个维度的值,得到每一个症状向量的平均值Mi:
其方差Vi:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910366790.8/2.html,转载请声明来源钻瓜专利网。





