[发明专利]一种基于词向量建模和信息检索的回顾性队列选择方法及装置在审
| 申请号: | 201910438020.X | 申请日: | 2019-05-20 |
| 公开(公告)号: | CN111966780A | 公开(公告)日: | 2020-11-20 |
| 发明(设计)人: | 王嫄;孔娜;张雪;王栋;赵婷婷;王洁;史艳翠 | 申请(专利权)人: | 天津科技大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/295;G16H50/70 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 300456 天津市经济技术*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 向量 建模 信息 检索 回顾 队列 选择 方法 装置 | ||
一种基于词向量建模和信息检索的回顾性队列选择方法及装置。本发明针对回顾性队列选择的方法召回率低、精确度差、检索信息不全的问题,通过在电子健康病例信息预处理时引入词聚类的方法进行命名实体识别,对往常采取的针对否定词的处理方法进行改进,利用skip‑gram算法学习电子健康病例中医学概念的嵌入,得到不同实体的向量表示,以此来建模患者的向量表示,从医学概念中学习到患者表征,通过查询扩展获得与查询有关的概念,然后利用余弦距离分别测量每个病人与查询向量之间关系并按距离对患者进行排序输出。本发明设计合理,在对否定词的预处理方法上进行改进后,可有效提高语义匹配的准确度,提升队列选择的召回率。
技术领域
本发明属于智能搜索领域,涉及命名实体识别,否定部分处理,词嵌入,查询扩展,队列选择,特别是一种在医疗领域环境中基于词向量建模和信息检索的回顾性队列选择方法。
背景技术
电子健康病例队列选择是信息搜索的一种,基于电子健康病例的研究为生物医学研究和精准医学提供了无数机会。对本方面研究,我们需要实现可靠检测出具有特定疾病或症状的患者以用于队列研究。然而,由于输入错误、编码偏差、医疗报告偏差、数据可用性、数据结构以及识别的准确性的限制,在电子病例系统中准确地识别出具有特定疾病的患者并非易事。通过单一临床概念(例如疾病和相关健康问题的国际统计分类编码)来定义病例、疾病群,往往不足以产生可靠的结果。此外,这些概念在识别不同疾病方面的性能差异很大,在进行队列选择时会面临着召回率低、语义匹配易失效、检索信息不全等问题。针对这些问题,大家曾做过以下努力。
首先是单纯使用聚类技术进行检索,根据某种相似性度量方法把相似的信息组织在一起形成类。在检索过程中,计算查询向量和每一个类之间的相似性,选择那些与查询向量的相似性高于某个阈值的类,然后计算查询向量与这些类中每个向量的相似性,其中将前R个最接近的项进行排序返回。其次为文本语义建模,LDA是最经典的可解释性最强的文本潜在主题建模方法。它是一个三层贝叶斯概率模型,包含词、主题和文档三层结构,是一种非监督的机器学习技术,可以用来识别大规模文档集或语料库中潜在的主题信息,采用词袋方法,这种方法将每一种方法视为一个词频向量,从而将文本信息转化为易于建模的数字信息。主题建模技术已经被用于将查询和文档首次映射到一个潜在的空间中,然后将它们与它进行匹配。在对电子健康病例进行数据预处理时,一般采取以下步骤:首先,将文本内容进行分词处理,然后对于分词后的结果从中去除停用词,例如“从而”、“一般”、否定词等在此处自身并无使用价值的词。由于电子健康病例是医生对患者健康状况的专业性描述,我们需要考虑其极强的专业性质及医生的书写习惯。电子健康病例比较明显的一个语言特征就是否定词的频繁应用,例如对某个症状的否认可以表示为:“无/未闻及/否认/未述/不伴+症状”的形式。若不能很好的处理这些频繁出现的否定词,对我们的检索工作将会产生致命性的误导。常见的处理否定词的方式为使用ConText6在索引之前从医疗记录中删除所有否定的部分。然而直接删除所有否定部分会大大影响检索的精度与有效性。
上述方法用于队列选择会产生召回率低、检索信息不全等问题。最主要的原因是因为上述方法是基于词或实体的精准匹配,本发明对针对否定词的预处理方法进行改进,利用深度学习算法学习医学概念嵌入,并通过查询扩展获取疾病相关的概念,包括:疾病、药物、症状,根据患者与查询的距离对患者进行排序输出,可有效提高语义匹配的准确度,快速实现更精确的信息匹配,提升队列选择的召回率。
发明内容
本发明的目的在于克服现有技术的不足,解决传统队列选择方法召回率低、语义匹配易失效,导致检索信息不全的问题,通过进行基于词向量建模和信息检索的回顾性队列选择,有效提高在电子健康病例进行队列识别领域的准确率。
本发明解决其技术问题是采取以下技术方案实现的:
步骤1:电子健康病例数据预处理。
步骤2:引入词聚类的命名实体识别。
步骤3:对电子健康病例中否定词部分进行处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津科技大学,未经天津科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910438020.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于BS的医院病房管理系统
- 下一篇:一种电热水器加热装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





