[发明专利]基于电子疾病文本的实体识别方法、系统和计算机设备有效
| 申请号: | 202010466473.6 | 申请日: | 2020-05-28 |
| 公开(公告)号: | CN111666754B | 公开(公告)日: | 2023-02-03 |
| 发明(设计)人: | 寿毅宁 | 申请(专利权)人: | 深圳平安医疗健康科技服务有限公司 |
| 主分类号: | G06F40/279 | 分类号: | G06F40/279 |
| 代理公司: | 北京英特普罗知识产权代理有限公司 11015 | 代理人: | 王勇 |
| 地址: | 518000 广东省深圳市福田区华*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 电子 疾病 文本 实体 识别 方法 系统 计算机 设备 | ||
本发明实施例提供了一种基于电子疾病文本的实体识别方法,所述方法包括:计算每个初始词语在电子疾病文本中的留下概率;将所述留下概率大于为预设值的初始词语作为目标词语,以得到多个目标词语;根据所述多个目标词语在所述电子疾病文本中的位置顺序,确定电子疾病文本所对应的文本序列;根据所述文本序列确定与电子疾病文本对应的多个疾病实体;根据预先配置疾病映射关系对每个疾病实体进行疾病映射操作,以得到多个目标疾病实体;及输出所述目标疾病实体。本发明实施例提高了疾病实体抽取的速度和准确率。此外,本发明还涉及区块链技术,目标疾病实体可存储于区块链节点中。
技术领域
本发明实施例涉及实体识别领域,尤其涉及一种基于电子疾病文本的实体识别方法、系统、计算机设备及计算机可读存储介质。
背景技术
随着医疗的电子化操作和人工智能的进一步发展,人们开始逐渐使用人工智能来替代医生的部分工作,如对化验报告单等疾病文本的分析工作。目前,对疾病文本的分析工作是通过CRF模型来完成的,但是,CRF模型在对疾病文本的分析时会生成大量的特征,加载这些特征比较耗内存,导致模型部署的初始化速度较慢,且会占用较大的计算内存,不利于该产品应用到实际的业务场景中;且当前医疗领域的人工智能技术需要依赖于人为更新的语料知识库且学习能力较差,具有疾病实体抽取速度慢、准确率低等缺陷。
因此,如何提高模型部署的初始化速度以及对语料知识的学习能力,从而进一步的提高模型对疾病实体抽取速度和准确率,成为了当前要解决的技术问题之一。
发明内容
有鉴于此,有必要提供一种基于电子疾病文本的实体识别方法、系统、计算机设备及计算机可读存储介质,以解决模型对疾病实体抽取速度慢和准确率低等技术问题。
为实现上述目的,本发明实施例提供了一种基于电子疾病文本的实体识别方法,所述方法步骤包括:
接收电子疾病文本,所述电子疾病文本包括用于描述疾病诊断信息的一个或多个语句;
对所述电子疾病文本进行分词操作,以得到多个初始词语;
计算每个初始词语在所述电子疾病文本中的留下概率;
将所述留下概率大于为预设值的初始词语作为目标词语,以得到多个目标词语;
根据所述多个目标词语在所述电子疾病文本中的位置顺序,确定所述电子疾病文本所对应的文本序列;
根据所述文本序列确定与所述电子疾病文本对应的多个疾病实体;
根据预先配置疾病映射关系对每个疾病实体进行疾病映射操作,以得到多个目标疾病实体;及
输出所述目标疾病实体。
示例性的,所述根据所述文本序列确定与所述电子疾病文本对应的多个疾病实体,包括:
对所述文本序列中的每个词语进行特征提取,以得到所述文本序列对应的特征序列;
根据所述特征序列对所述文本序列进行标注,以得到所述文本序列对应的标签序列;
对所述标签序列中的标签进行筛选,以得到多个目标标签;及
根据多个目标标签得到多个疾病实体。
示例性的,对所述文本序列中的每个词语进行特征提取,以得到所述文本序列对应的特征序列,包括:
根据所述电子疾病文本的文本序列,将各个词对应的向量输入到前向LSTM层中,以通过该前向LSTM层计算前向隐藏层状态序列;
根据所述电子疾病文本中的文本序列,将各个词对应的向量输入到后向LSTM层中,以通过该后向LSTM层计算后向隐藏层状态序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳平安医疗健康科技服务有限公司,未经深圳平安医疗健康科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010466473.6/2.html,转载请声明来源钻瓜专利网。





