[发明专利]一种命名实体识别方法及装置在审
| 申请号: | 201910218598.4 | 申请日: | 2019-03-21 |
| 公开(公告)号: | CN111797626A | 公开(公告)日: | 2020-10-20 |
| 发明(设计)人: | 陈漠沙;仇伟;李林琳;司罗 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04 |
| 代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 李丹;栗若木 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 命名 实体 识别 方法 装置 | ||
本申请公开了一种命名实体识别方法及装置,该方法包括:对需要处理的文本进行处理得到第一识别实体;对第一识别实体中存在多个单独字的实体进行合并处理,对合并处理后的第一识别实体进行处理得到第二识别实体;根据第一识别实体和第二识别实体获得对所述文本的识别结果。本申请针对具有嵌套结构的命名实体实现了识别。
技术领域
本申请涉及但不限于机器学习技术,尤指一种命名实体识别方法及装置。
背景技术
近年来随着医院信息化建设的不断完善,电子病历逐步取代手写病历成为规范,促进了AI-NLP文本技术在医疗行业的应用。其中,最基础的任务是对医疗命名实体的识别,医疗命名实体可以包括如:疾病、症状、药品、药品反应、检查、检查值、手术等。不同于业界或者学术界日常定义的命名实体识别,比如:识别“人名”、“地名”、“时间”、“商品名”等,医学文本的命名实体往往更复杂,一方面,医学文本的命名实体往往更长,比如“药品名”、“疾病名”等;另一方面,医学文本的命名实体往往具备结构信息,且这种结构是嵌套的,比如对于“胸部正片”这个文本,“胸部正片”自身是一个检查名称,而其中的“胸部”又是一个表示身体部位的名称。由于医学文本的特殊性,嵌套结构出现的频率非常高。
其中,命名实体识别(NER,Named Entity Recognition),也称为专名识别,是指识别文本中具有特定意义的实体。以医疗文本为例主要包括如:疾病、症状、用药、检查、手术、身体部位等。命名实体识别是一项典型的序列标注问题。嵌套命名实体,指的是一个命名实体中包含了一项或者多项其他类型的命名实体类型,以“胸部正片”为例,“胸部正片”表明一个检查名称,而其中的“胸部”表明一个身体部位名称。
相关技术中,机器学习包括深度学习方法,一般都是基于非嵌套的命名实体展开的,也称为flatten命名体,因此,这些算法如果应用到嵌套结构实体的识别,是不能取得期望的结果的,特别是算法需要对预测的标签进行唯一性判定的情况。以“胸部正片”为例,如果算法已经将“胸部”预测为身体部位,那么,对“胸部正片”是不会再被预测为检查类型的。但是,实际上,识别的过程是期望算法能够输出两个预测标签。也就是说,相关技术中没有针对具有嵌套结构的命名实体的识别方案。
发明内容
本申请提供一种命名实体识别方法及装置,能够针对具有嵌套结构的命名实体实现识别。
本发明实施例提供了一种命名实体识别方法,包括:
对需要处理的文本进行处理得到第一识别实体;
对第一识别实体中存在多个单独字的实体进行合并处理,对合并处理后的第一识别实体进行处理得到第二识别实体;
至少根据第一识别实体和第二识别实体获得对所述文本的识别结果。
在一种示例性实例中,所述对命名实体进行处理得到第一识别实体,包括:
对所述命名实体进行处理获得词向量;
利用第一神经网络对获得的词向量进行处理;
对处理后的结果进行解码和标注得到所述第一识别实体。
在一种示例性实例中,所述对第一识别实体中存在多个单独字的实体进行合并处理,包括:
对所述第一识别实体中存在多个单独字的实体,将所包含的单独字表示进行加权平均处理后构成一个单字。
在一种示例性实例中,所述对合并处理后的第一识别实体进行处理得到第二识别实体,包括:
利用第二神经网络对所述处理后的第一识别实体进行处理;
对第二神经网络处理后的结果进行解码得到所述第二识别实体。
在一种示例性实例中,所述根据第一识别实体和第二识别实体获得对命名实体的识别结果,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910218598.4/2.html,转载请声明来源钻瓜专利网。





