[发明专利]一种人名识别方法和装置在审
申请号: | 201611038892.X | 申请日: | 2016-11-21 |
公开(公告)号: | CN108090039A | 公开(公告)日: | 2018-05-29 |
发明(设计)人: | 蒋忠强;梁俊;全兵;陶鸿飞;温士帅;骆舰;刘甦晓 | 申请(专利权)人: | 中移(苏州)软件技术有限公司;中国移动通信集团上海有限公司;中国移动通信集团公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 张颖玲;蒋雅洁 |
地址: | 215163 江苏省苏州市高*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人名识别 文本序列 分词 语境 人名识别装置 方法和装置 统计模型 构建 输出 决策 | ||
本发明公开了一种人名识别方法,包括:获取输入的文本序列,并对所述文本序列进行分词,其中,所述文本序列中包括至少一个人名;根据人名的构成特征,基于至少两种统计模型对分词后的文本序列进行人名识别,获得所有潜在人名;根据人名的语境构建ngram模型;根据所述ngram模型对所述所有潜在人名进行决策,确定并输出最终符合语境的人名识别结果。本发明还同时公开了一种人名识别装置。
技术领域
本发明涉及自然语言处理技术领域中的识别技术,尤其涉及一种人名识别方法和装置。
背景技术
自然语言处理是互联网信息搜索领域的核心分析技术,在搜索引擎、舆情监控、以及电子商务等众多互联网IT产业都有广泛应用。随着互联网信息指数级增长以及用户体验需求越来越高,在保证处理速度满足用户使用需求的前提下,互联网信息搜索对自然语言处理结果的要求也越来越精准。其中,人名识别是自然语言处理词法分析中最困难的核心问题之一,不管是在搜索引擎领域,还是在舆情监控领域,用户对人名的关注度远高于常用词,且采用词典无法识别所有人名,导致识别难度较大,因此,人名识别一直以来都是用户备受关注的研究课题。
一般来说,人名识别包括两种类型:中文人名识别和音译人名识别。由于人名构成特征和上下文特征的复杂性,目前主流技术中所采用的单一统计模型是无法全面覆盖所有人名构成特征和上下文特征的,因此,为了提升综合识别效果,迫切需要一种融合中文人名识别和音译人名识别于一体的多人名识别方法。目前,比较常见的多人名识别方法主要有以下两种:
1)基于混合模型的人名识别方法,该方法是基于决策树规则和多种统计模型相结合的人名识别算法,首先,采用决策树规则对人名构成特征和上下文特征进行分类;然后,对每一类别的人名采用针对性的统计模型,从而弥补目前主流技术所采用的单一统计模型无法全面覆盖所有人名构成特征和上下文特征的缺点,提升综合识别效果;
2)基于角色标注的人名识别方法,该方法是通过对分词后的输入序列进行角色标注,并获取角色标注序列,进而对中文人名和音译人名进行统一处理,并对出现错误的人名识别角色进行修正,最后,根据人名识别模式对所得到的角色标注序列进行匹配,并输出组成的人名。
然而,上述两种多人名识别方法主要存在以下问题:
对于基于混合模型的人名识别方法,由于该方法在进行人名识别之前,需对所有人名进行分类,如果分类效果不佳,很容易造成人名遗漏识别或错误识别;且未对不同人名识别模型的识别结果进行统一维度的决策,因此,当不同模型之间的识别结果有交叉时,让用户难以取舍;而对于基于角色标注的人名识别方法,只是考虑到将中文人名和音译人名使用角色标注方法进行统一识别,却未考虑到不同人名在自身特点上存在的差异性,识别效果存在不足。
发明内容
有鉴于此,本发明实施例期望提供一种人名识别方法和装置,至少解决现有的多人名识别技术中存在的上述问题,能够快速、准确地识别中文人名和音译人名。
为达到上述目的,本发明实施例的技术方案是这样实现的:
本发明实施例提供一种人名识别方法,所述方法包括:
获取输入的文本序列,并对所述文本序列进行分词,其中,所述文本序列中包括至少一个人名;
根据人名的构成特征,基于至少两种统计模型对分词后的文本序列进行人名识别,获得所有潜在人名;
根据人名的语境构建ngram模型;
根据所述ngram模型对所述所有潜在人名进行决策,确定并输出最终符合语境的人名识别结果。
上述方案中,所述方法还包括:将分词过程中没有录入词典的未登录词以单字形态呈现。
上述方案中,在所述获得所有潜在人名之后,所述方法还包括:根据所述所有潜在人名构建待决策的人名有向图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(苏州)软件技术有限公司;中国移动通信集团上海有限公司;中国移动通信集团公司,未经中移(苏州)软件技术有限公司;中国移动通信集团上海有限公司;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611038892.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文本断句方法及系统
- 下一篇:一种文本信息分类方法及系统