[发明专利]一种人名识别方法和装置在审

专利信息
申请号: 201611038892.X 申请日: 2016-11-21
公开(公告)号: CN108090039A 公开(公告)日: 2018-05-29
发明(设计)人: 蒋忠强;梁俊;全兵;陶鸿飞;温士帅;骆舰;刘甦晓 申请(专利权)人: 中移(苏州)软件技术有限公司;中国移动通信集团上海有限公司;中国移动通信集团公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京派特恩知识产权代理有限公司 11270 代理人: 张颖玲;蒋雅洁
地址: 215163 江苏省苏州市高*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 人名识别 文本序列 分词 语境 人名识别装置 方法和装置 统计模型 构建 输出 决策
【说明书】:

发明公开了一种人名识别方法,包括:获取输入的文本序列,并对所述文本序列进行分词,其中,所述文本序列中包括至少一个人名;根据人名的构成特征,基于至少两种统计模型对分词后的文本序列进行人名识别,获得所有潜在人名;根据人名的语境构建ngram模型;根据所述ngram模型对所述所有潜在人名进行决策,确定并输出最终符合语境的人名识别结果。本发明还同时公开了一种人名识别装置。

技术领域

本发明涉及自然语言处理技术领域中的识别技术,尤其涉及一种人名识别方法和装置。

背景技术

自然语言处理是互联网信息搜索领域的核心分析技术,在搜索引擎、舆情监控、以及电子商务等众多互联网IT产业都有广泛应用。随着互联网信息指数级增长以及用户体验需求越来越高,在保证处理速度满足用户使用需求的前提下,互联网信息搜索对自然语言处理结果的要求也越来越精准。其中,人名识别是自然语言处理词法分析中最困难的核心问题之一,不管是在搜索引擎领域,还是在舆情监控领域,用户对人名的关注度远高于常用词,且采用词典无法识别所有人名,导致识别难度较大,因此,人名识别一直以来都是用户备受关注的研究课题。

一般来说,人名识别包括两种类型:中文人名识别和音译人名识别。由于人名构成特征和上下文特征的复杂性,目前主流技术中所采用的单一统计模型是无法全面覆盖所有人名构成特征和上下文特征的,因此,为了提升综合识别效果,迫切需要一种融合中文人名识别和音译人名识别于一体的多人名识别方法。目前,比较常见的多人名识别方法主要有以下两种:

1)基于混合模型的人名识别方法,该方法是基于决策树规则和多种统计模型相结合的人名识别算法,首先,采用决策树规则对人名构成特征和上下文特征进行分类;然后,对每一类别的人名采用针对性的统计模型,从而弥补目前主流技术所采用的单一统计模型无法全面覆盖所有人名构成特征和上下文特征的缺点,提升综合识别效果;

2)基于角色标注的人名识别方法,该方法是通过对分词后的输入序列进行角色标注,并获取角色标注序列,进而对中文人名和音译人名进行统一处理,并对出现错误的人名识别角色进行修正,最后,根据人名识别模式对所得到的角色标注序列进行匹配,并输出组成的人名。

然而,上述两种多人名识别方法主要存在以下问题:

对于基于混合模型的人名识别方法,由于该方法在进行人名识别之前,需对所有人名进行分类,如果分类效果不佳,很容易造成人名遗漏识别或错误识别;且未对不同人名识别模型的识别结果进行统一维度的决策,因此,当不同模型之间的识别结果有交叉时,让用户难以取舍;而对于基于角色标注的人名识别方法,只是考虑到将中文人名和音译人名使用角色标注方法进行统一识别,却未考虑到不同人名在自身特点上存在的差异性,识别效果存在不足。

发明内容

有鉴于此,本发明实施例期望提供一种人名识别方法和装置,至少解决现有的多人名识别技术中存在的上述问题,能够快速、准确地识别中文人名和音译人名。

为达到上述目的,本发明实施例的技术方案是这样实现的:

本发明实施例提供一种人名识别方法,所述方法包括:

获取输入的文本序列,并对所述文本序列进行分词,其中,所述文本序列中包括至少一个人名;

根据人名的构成特征,基于至少两种统计模型对分词后的文本序列进行人名识别,获得所有潜在人名;

根据人名的语境构建ngram模型;

根据所述ngram模型对所述所有潜在人名进行决策,确定并输出最终符合语境的人名识别结果。

上述方案中,所述方法还包括:将分词过程中没有录入词典的未登录词以单字形态呈现。

上述方案中,在所述获得所有潜在人名之后,所述方法还包括:根据所述所有潜在人名构建待决策的人名有向图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(苏州)软件技术有限公司;中国移动通信集团上海有限公司;中国移动通信集团公司,未经中移(苏州)软件技术有限公司;中国移动通信集团上海有限公司;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611038892.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top