[发明专利]多策略融合的命名实体的识别方法及装置有效

专利信息
申请号: 201710447439.2 申请日: 2017-06-14
公开(公告)号: CN107330011B 公开(公告)日: 2019-03-26
发明(设计)人: 赵红红;王萌萌;晋耀红;蒋宏飞;杨凯程;董铭慆 申请(专利权)人: 北京神州泰岳软件股份有限公司;中科鼎富(北京)科技发展有限公司
主分类号: G06F16/36 分类号: G06F16/36;G06F17/27
代理公司: 北京弘权知识产权代理事务所(普通合伙) 11363 代理人: 逯长明;许伟群
地址: 100089 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 策略 融合 命名 实体 识别 方法 装置
【说明书】:

本申请公开了一种多策略融合的命名实体的识别方法及装置,利用第一识别模型识别获取的语料中的命名实体,得到第一识别结果,在本申请提供的方法中,所述第一识别模型能够更新和扩充语料库,从而能够识别出语料中新产生的命名实体,进而所述第一识别结果具有更高的准确率,再利用多识别模型融合的方法识别所述语料中的命名实体,得到第二识别结果,融合所述第一识别结果和第二识别结果得到第三识别结果,再利用语义挖掘系统对第三识别结果进行角色分配,并输出具有角色的命名实体,从而实现了在数据海量化、实体类型多样化、新词层出不穷等情况下可靠地识别出命名实体,并对识别出的命名实体进行角色分配。

技术领域

本申请涉及自然语言处理领域,尤其涉及一种多策略融合的命名实体的识别方法及装置。

背景技术

命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体,它是文本中基本的信息元素,是信息表达的重要载体,是正确理解和处理文本信息的基础。中文命名实体识别是自然语言处理领域中的基本任务之一,其主要任务是识别出文本中出现的名字实体和有意义的数量短语并加以归类,主要包括人名、地名、组织机构名、时间表达式、日期、数字表达式等。

在自然语言处理研究方面,命名实体识别在信息检索、信息抽取、机器翻译和文本分类等应用领域有重要作用,它能够显著地提高信息检索、摘要提取、信息提取、机器翻译和文本分类等应用系统的性能,为从文本中自动获取知识奠定了基础。命名实体识别准确率和召回率的高低,直接决定着语法分析、语义分析等语言理解全过程的性能。

近十几年来,国内外学者对文本中的实体识别技术已有广泛探讨和深入研究。但随着互联网的飞速发展,大量无规则、多领域的文本数据不断增长,对命名实体识别的准确率和召回率均提出了新的要求,此外,市场还需求对所识别到的命名实体进行角色分配,因此,无论是迎合市场需求,还是提高识别的准确率和召回率,命名实体的识别方法都有待进一步改进。

目前常用的命名实体识别方法分为两大类:一是基于规则和知识的方法,二是基于统计的方法。基于规则和知识的方法是一种最早使用的方法,这种方法简单、便利,缺点是需要大量的人工观察,可移植性较差。基于统计的方法将命名实体识别看作一个分类问题,采用类似支持向量机,贝叶斯模型等分类方法;同时也可以将命名实体识别看作一个序列标注问题,采用隐马尔可夫链、最大熵马尔可夫链、条件随机场等机器学习得到序列标注模型。但是上述方法或者存在难以满足对目前大量无规则、多领域、日新月异文本进行命名实体识别的问题,或者识别的准确率和召回率低。

如,中国专利CN201610943210.3公开了一种基于人工智能的命名实体识别方法及装置,这种方法通过利用条件随机场模型和根据预设时间段内的检索日志生成的功能模型,同时对待识别文本进行命名实体识别。该方案的缺陷在于其第二识别中预设的实体词汇功能模型是首先通过词典、规则匹配等方法得到待识别文本中所有的候选命名实体词汇,进而判断其作为命名实体词汇的置信度的高低,由于规则的方法往往依赖于具体语言、领域和文本格式,编制过程耗时且容易产生错误,并且需要富有经验的语言学家才能完成,而词典的覆盖率也较低,因此该方法难以满足对目前大量无规则、多领域、日新月异文本进行命名实体识别。

再如中国专利CN201510889318.4公开了一种适用于社交网络的命名实体识别方法,该方法在利用初始构建的第一序列标注模型得到训练文档的第一实体概率分布和测试文档的第二实体概率分布后,从社交网络信息中提取相似度特征,之后再基于相似度特征训练得到第二序列标注模型,进而在基于第二序列标注模型对测试文档进行序列标注得到命名实体的识别结果,最终该方法的准确率和召回率低,其识别的F值仅为33.19%。

因此,亟需开发一种能够应对数据规模海量化、实体类型多样化、新词层出不穷等新情况,具有较高召回率和准确率,而且还能够对识别得到的命名实体进行角色分配的命名实体识别方法以及命名实体识别装置。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神州泰岳软件股份有限公司;中科鼎富(北京)科技发展有限公司,未经北京神州泰岳软件股份有限公司;中科鼎富(北京)科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710447439.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top