[发明专利]基于决策树规则和多种统计模型相结合的人名识别算法有效

专利信息
申请号: 201410060957.5 申请日: 2014-02-21
公开(公告)号: CN103823859B 公开(公告)日: 2017-02-22
发明(设计)人: 郑中华;周俊;周银行 申请(专利权)人: 安徽博约信息科技股份有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 230000 安徽省合肥市*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 决策树 规则 多种 统计 模型 相结合 人名 识别 算法
【说明书】:

技术领域

发明涉及一种基于决策树规则和多种统计模型相结合的人名识别算法。

背景技术

自然语言处理是互联网信息搜索领域的核心分析技术,在搜索引擎、舆情监控以及电子商务等众多互联网IT产业都有广泛的应用。随着互联网信息指数级增长以及用户体验需求越来越高,在保证处理速度满足用户使用需求的前提下,互联网信息搜索对自然语言处理结果的要求越来越精准。人名识别是自然语言处理词法分析中最困难的核心问题之一,不管在搜索引擎领域还是在舆情监控领域,用户对人名、地名和机构名等实体词的关注度远高于常用词,而且人名作为无法直接采用词典匹配识别的未登录词,识别难度大,因此,一直以来都是备受关注的研究问题。

所谓人名识别,在本文中是指针对给定汉语句子,准确地标出句中所含所有完整人名,包括姓氏和名字,而对于指代人物的身份词,姓氏指代词或无姓人名则不用标出,因为身份词、姓氏指代词和无姓人名通常指代一类人而不是一个人,且一般用于非正式场合,用户关注度并不高,故不在本文人名识别范围内。如给定句子“揭景岗山二婚娶李亚鹏经纪人”,需要标出人名“景岗山”和“李亚鹏”;又如“妈妈告诉儿子鹏鹏做人要诚实”,“李考上大学”等句子中,身份词“妈妈”和“儿子”,姓氏指代词“李”,无姓人名“鹏鹏”都不用标出。

现有的技术方案如下:

基于统计机器学习和基于统计与规则相结合是目前最主流的人名识别方法,基于统计机器学习的人名识别方法通过定义语义角色对语言文本的词序列进行角色标注,然后利用统计模型对文本中出现的语义角色进行建模与计算,最终得到人名的识别结果,由于该方法实现难度小,且一致性好,故而得到广泛的应用。基于统计与规则相结合的人名识别方法是在基于统计机器学习的基础上,加上启发式规则,对统计模型的识别结果进行修正,以提升综合识别效果。由于统计模型仅从整体考虑,可能抑制局部小概率事件的发生,而且训练语料库也存在信息不全面等局限,导致统计信息存在误差,造成很多人名遗漏识别或错误识别,因此需要结合一些启发式规则进行召回和剔除,以弥补统计模型的不足。

从图1中可以看出,基于统计机器学习的人名识别方法主要包括离线统计和在线识别两部分。

离线统计指离线完成统计模型的参数训练,主要包括角色定义与信息统计和统计模型构建与训练两项工作,角色定义根据人名的构成特征和上下文特征定义语义角色,一般包括人名姓氏,人名用字,上文特征以及下文特征等,如“演员周星驰担任政协委员”,“演员”为上文特征,“周”为姓氏,“星”和“驰”为人名用字,“担任”为下文特征,角色信息统计则根据人名库和训练语料库统计所有的人名姓氏,人名用字等角色信息;统计模型构建和参数训练指根据定义的语义角色,构建合适的统计模型,如隐马尔科夫模型,条件随机场模型,位置概率模型以及贝叶斯模型等,然后利用训练语料库计算统计模型中常数参数值。

在线识别指根据输入的语言文本,标注其中所含有的所有人名并输出。在线识别过程如下:1)选用合适的粗分算法,如N-Gram、最大匹配算法等,将输入的连续汉语语言文本字符串切分为词序列;2)采用离线统计的角色词库对词序列执行角色识别,即标注出语言文本中出现的所有人名语义角色;3)采用已训练的统计模型,对文本中出现的语义角色进行分析与计算,并得出识别结果;4)采用启发式规则对识别结果进行召回和剔除,召回遗漏识别,剔除错误识别,本步骤可无;5)输出语言文本中人名的识别结果。

现有技术的缺点是:

1)采用单一统计模型,综合识别效果差。由于人名构成特征和上下文特征复杂,不具备统一特征,现有技术采用单一模型无法覆盖所有人名构成特征和上下文特征,且出现规则冲突概率较大,导致综合识别效果差。

2)识别效果过于依赖训练语料库,可靠性低。对统计模型来说,训练语料库的普适性和全面性直接影响模型参数的可靠性,从而决定最终的识别效果,而内容全面,涵盖所有人名构成特征和上下文特征的语料库几乎不存在,而现有技术采用的主要为统计模型,故而过于依赖经验主义,可靠性较低。

3)综合识别效率低。语言文本中出现的相当一部分人名角色可通过规则快速排除,或者通过更简单的统计模型即可高效准确的识别,而现有技术对所有标注的人名角色采用同一种统计模型进行计算,故而综合识别效率低。

发明内容

本发明要解决的技术问题是汉语语言文本中的中国人名识别问题。

为了解决上述技术问题,本发明采用的技术方案是:基于决策树规则和多种统计模型相结合的人名识别算法,包括离线统计和在线识别两个过程:

1.离线统计

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽博约信息科技股份有限公司,未经安徽博约信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410060957.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top