[发明专利]基于中文病历的实体识别方法、装置、设备及存储介质有效

申请号：	201910229419.7	申请日：	2019-03-25
公开（公告）号：	CN109871544B	公开（公告）日：	2023-04-25
发明（设计）人：	丁佳佳;曹灵宇;倪渊;谢国彤	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F40/295	分类号：	G06F40/295;G16H10/60
代理公司：	北京英特普罗知识产权代理有限公司 11015	代理人：	林彦之
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于中文病历实体识别方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于中文病历的实体识别方法，属于自然语言处理领域。该方法包括：对中文病历进行分词；输出用于表征每个字在词组中位置的第一特征向量；识别出中文病历中每个字的偏旁，将识别出的每个字的偏旁与预设的实体偏旁逐个比对；对应每个字输出用于表征比对结果的第二特征向量；将输出的对应每个字的第一特征向量和第二特征向量拼接在每个字的初始向量之后得到用于表征中文病历的向量集；将向量集输入训练好的模型以抽取其中的实体。本发明通过对中文病例中的文本内容抽取相应的特征转换成特征向量作为模型的输入，以提高模型对实体识别的准确率。

技术领域

本发明涉及自然语言处理领域，涉及一种基于中文病历的实体识别方法、装置、设备及存储介质。

背景技术

目前对于命名实体识别在病例上的应用的需求很大，比如对病例的查询、搜索、整理等，以实现构建医疗知识库、医疗知识图谱以及推进医疗自动问答等目的。

现有基于深度学习的中文命名实体识别的效果很难提升，而且之前都是应用在其他语言上，比如英语。因为深度学习模型的限制和各个语言间语言特性的不同，这使命名实体任务在中文上的应用受到了限制。又因为通用领域、其他领域与医疗领域之间的差异，使其在医疗领域中病例的方向上的应用有所限制。

发明内容

本发明要解决的技术问题是为了克服现有技术中基于深度学习的中文命名实体识别准确率不高的问题，提出了一种基于中文病历的实体识别方法、装置、设备及存储介质，通过对中文病例中的文本内容抽取相应的特征转换成特征向量，然后将特征向量作为模型的输入，以提高实体识别的准确率。

本发明是通过下述技术方案来解决上述技术问题：

一种基于中文病历的实体识别方法，包括以下步骤：

使用分词工具对所述中文病历进行分词；

以分词后得到的词组为单位，根据单个字在所述词组中的位置与特征向量的第一对应规则，输出用于表征每个字在词组中位置的第一特征向量；

识别出所述中文病历中每个字的偏旁，将识别出的每个字的偏旁与预设的实体偏旁逐个比对并输出比对结果，所述比对结果包括不匹配和匹配到的实体偏旁；