[发明专利]医学实体信息的抽取方法、装置、存储介质及电子设备在审
申请号: | 201811624699.3 | 申请日: | 2018-12-28 |
公开(公告)号: | CN111444717A | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 凤博;郭潇宇 | 申请(专利权)人: | 天津幸福生命科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 袁礼君;阚梓瑄 |
地址: | 301800 天津市宝坻*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医学 实体 信息 抽取 方法 装置 存储 介质 电子设备 | ||
1.一种医学实体信息的抽取方法,其特征在于,包括:
获取文本,对所述文本进行预处理以形成文本向量;
将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息;
将所述医学实体信息进行融合和去重处理,以获取目标医学实体信息。
2.根据权利要求1所述的医学实体信息的抽取方法,其特征在于,获取文本,对所述文本进行预处理以形成文本向量,包括:
统计所述文本的字符长度;
将所述文本的字符长度与第一预设值进行比较;
根据比较结果,去除字符长度小于所述第一预设值的第一文本,保留字符长度大于或等于所述第一预设值的第二文本;
将所述第二文本进行编码,以对所述第二文本进行向量化,形成所述文本向量。
3.根据权利要求2所述的医学实体信息的抽取方法,其特征在于,在将所述第二文本进行编码,以对所述第二文本进行向量化,形成所述文本向量之前,所述获取文本,对所述文本进行预处理以形成文本向量,包括:
统计所述第二文本中的文字出现的频率,并将所述频率与第二预设值进行比较;
若存在频率大于或等于所述第二预设值的目标文字,则保留所述目标文字,删除所述第二文本中除所述目标文字之外的文字。
4.根据权利要求2或3所述的医学实体信息的抽取方法,其特征在于,在将所述第二文本进行编码,以对所述第二文本进行向量化,形成所述文本向量之前,所述获取文本,对所述文本进行预处理以形成文本向量,包括:
将所述第二文本中的数字和英文字符用特殊字符替换。
5.根据权利要求1所述的医学实体信息的抽取方法,其特征在于,所述多个模块包括第一模型、第二模型、第三模型和第四模型;
将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息,包括:
从所述文本向量中提取各个文字的特征信息,将各所述文字和各所述文字的特征信息输入至所述第一模型中,通过所述第一模型根据各所述文字的特征信息对各所述文字进行标注,以获取所述文本向量中的第一医学实体信息;
将所述文本向量输入至所述第二模型,通过所述第二模型对所述文本向量中的文字进行序列标注,以获取所述文本向量中的第二医学实体信息;
将所述文本向量输入至所述第三模型,通过所述第三模型根据预设规则对所述文本向量进行实体抽取,以获得所述文本向量中的第三医学实体信息;并且,
将所述文本向量输入至所述第四模型,通过所述第四模型将所述文本向量与预设字典进行匹配,以获取所述文本向量中的第四医学实体信息。
6.根据权利要求5所述的医学实体信息的抽取方法,其特征在于,所述第一模型为条件随机场模型,所述第二模型为双向长短期记忆网络-条件随机场模型,所述第三模型为规则模型,所述第四模型为字典模型。
7.根据权利要求6所述的医学实体信息的抽取方法,其特征在于,将所述医学实体信息进行融合和去重处理,以获取目标医学实体信息,包括:
将所述第一医学实体信息、所述第二医学实体信息、所述第三医学实体信息和所述第四医学实体信息融合,以获取融合医学实体信息;
去除所述融合医学实体信息中重复的医学实体信息,以获取所述目标医学实体信息。
8.根据权利要求1所述的医学实体信息的抽取方法,其特征在于,在将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息之前,所述方法还包括:
获取训练数据集,并对所述训练数据集进行人工标注,以获取与所述训练数据集对应的标注数据集;
根据所述训练数据集和所述标注数据集对所述多个不同的模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津幸福生命科技有限公司,未经天津幸福生命科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811624699.3/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置