[发明专利]一种中文命名实体识别方法以及装置在审
申请号: | 201911192335.7 | 申请日: | 2019-11-28 |
公开(公告)号: | CN111339764A | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 王喆锋;郑毅;李丹;徐童;怀宝兴;袁晶 | 申请(专利权)人: | 华为技术有限公司;中国科学技术大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 吴磊 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 命名 实体 识别 方法 以及 装置 | ||
本申请实施例公开了一种中文命名实体识别方法以及装置,用于提高医疗领域中文命名实体识别的准确性。本申请实施例方法包括:中文命名实体识别装置获取该待识别文本中各个字符的字符向量以及部首向量,其中部首向量为各个字符对应的部首的向量;然后,该中文命名实体识别装置将该字符向量和该部首向量拼接,输入双向长短期记忆网络得到第一字向量;最后将该第一字向量输入条件随机场模型输出该待识别文本中的第一实体词。
本申请要求于2019年09月18日提交中国专利局、申请号为201910883676.2、申请名称为“一种基于部首特征的实体词识别方法和装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及智慧医疗领域,尤其涉及一种中文命名实体识别方法以及装置。
背景技术
随着互联网技术的飞速发展,网络信息呈现指数级增长的态势,一大批在线医疗社区和医疗信息问答网站也随之涌现,使得海量的医疗诊断信息以电子文档的形式呈现在人们面前。然而,与数据库不同的是,这些医疗数据文本大多处于非结构化的状态。为了充分利用这些医疗领域文本蕴含的信息,通过命名实体识别技术有效抽取其中有用的医疗实体词,已成为实现智慧医疗的前提和基础。
然而,当前中文电子病历的命名实体识别研究工作并没有考虑全面中文及中文医疗领域的特殊性,而是将面向通用数据集的模型迁移到医疗领域的实体类型中,分析效果较为有限。
发明内容
本申请实施例提供了一种中文命名实体识别方法以及装置,用于提高医疗领域中文命名实体识别的准确性。
第一方面,本申请实施例提供一种中文命名实体识别方法,应用于在医疗领域识别中文病历实体,具体包括:中文命名实体识别装置获取该待识别文本中各个字符的字符向量以及部首向量,其中部首向量为各个字符对应的部首的向量;然后,该中文命名实体识别装置将该字符向量和该部首向量拼接,输入双向长短期记忆网络得到第一字向量;最后将该第一字向量输入条件随机场模型输出该待识别文本中的第一实体词。
本实施例中,中文命名实体识别装置将医疗领域命名实体鲜明的部首特征编码到字符向量中,丰富了命名实体识别模型的输入特征,从而提高了命名实体的实体抽取能力。同时把部首向量和字符向量拼接后一起放进双向长短期记忆网络,不仅能捕捉到字符和字符之间的关系,还能捕捉到部首和字符之间的关系以及部首和部首之间的关系,这样增强了实体识别效果。
可选的,该中文命名实体识别装置将该待识别文本中的各个字符转换成对应的第一ID/one-hot编码,并将该第一ID/one-hot编码输入命名实体识别模型的查找矩阵得到字符向量;同时该中文命名实体识别装置根据汉字-部首映射表查找到各个字符对应的部首,并将该部首也转换成对应的第二ID/one-hot编码,再将该第二ID/one-hot编码输入命名实体识别模型的查找矩阵中得到部首向量。
本实施例中,该汉字-部首映射表为新加入该命名实体识别模型中的一个模块,具体来说,通过爬取在线新华字典或者相关的医学字典建立汉字与部首之间的映射表。比如“肺”对应的部首为“月”,该映射表中将“肺”与“月”以一一对应的关系存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司;中国科学技术大学,未经华为技术有限公司;中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911192335.7/2.html,转载请声明来源钻瓜专利网。