[发明专利]识别自然语言中的命名实体的方法和装置有效

专利信息
申请号: 200610079890.5 申请日: 2006-05-15
公开(公告)号: CN101075228A 公开(公告)日: 2007-11-21
发明(设计)人: 燕鹏举;孙羽菲;续木贵史 申请(专利权)人: 松下电器产业株式会社
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 中科专利商标代理有限责任公司 代理人: 王玮
地址: 日本*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 识别 自然语言 中的 命名 实体 方法 装置
【说明书】:

技术领域

本发明涉及语言处理方法和系统,特别是涉及识别自然语言中的命名 实体的方法和系统,从而能够提取语言信息,进行相应的处理。

背景技术

命名实体是指包括人名、地名、机构名、时间、数量等特定种类词的 集合。命名实体识别在信息提取、信息检索方面有着广泛的应用。

近年来,逐步式的命名实体(named entity,NE)识别或语块(chunk) 识别方法表现了比较高的性能。Taku Kudo,Yuji Matsumoto在2001年的 NAACL上发表的题为Chunking with Support Vector Machines的文章对此 做了说明。这些方法的主要特征是将识别分成若干前后相继的步骤,每一 步扫描输入句子中的一个词,通过观察当前词的上下文(context)特征 (feature),使用预定或者统计(stochastic)的方法预测当前词的标记 (token)。不同的方法使用不同的标记集合,但基本上包括B、I、E和O 四种,分别表示命名实体的起始(B)、中间(I)、结束(E)位置和不属 于命名实体(O)。在输入句子中所有词的标记确定之后,所有B、I、E 标记串就直接组成了命名实体。在识别中的每一步,识别器使用的特征是 包含在以当前词为中心的一个特征窗口内的局部特征。

表1是一个从句子的开始位置解析(parsing)到句子结束位置的方法 示例,下文称为前向解析。

表1

在表1中C表示当前词,L1和L2是当前词的左上下文,而R1和R2是右上下文。 特征窗口的大小是5,FC、和是特征窗口内每个词对应的特 征,而是前续词的识别标记。N/A表示当前时刻该特征还无法得到。

所谓特征是指所有一切在上下文中可以观察得到的信息。例如,这个 词是什么,词的长度,词性是什么,前面决定的该词对应的标记是什么, 等等,如下面的表2所示。具体使用什么样的特征,由系统设计人员根据 应用的特点来进行选定,目标是使系统达到最高识别性能。在表2所示的 前向解析中,当系统观察到所有这些特征时,它就可能对当前词“邓”作 出“B-PER”的标记预测。

表2

其中B-PER标记表示当前词是一个人名的开始。

在表2给出的示例中,以“继承”为例,在第三行中给出了该词的特 征为:词的内容是“继承”,词的长度是2,词性为动词,标记为O(说明 其不是命名实体)。

从上面的说明可以看到,逐步式的识别方法有一个缺点,就是只能使 用一个固定大小的特征窗口内的局部特征。由于长程(long distance)特征 没有得到使用,会造成起始边界B标记的误警(false alarm),即不是命名 实体起始边界的地方有可能被识别器认为是一个起始边界。Manabu Sassano,Takehito Utsuro在COLING2000:705-711中发表的题为“Named Entity Chunking Techniques in Supervised Learning for Japanese Named Entity Recognition”的文章提出一个可变长度模型(Variable Length Model) 的方法。其中特征窗口的大小可以在一个预先确定的范围内变化,可以看 出,该方法仍然不能处理任意长度范围内的特征。

一些基于概率(probabilistic)模型的方法可以使用全局特征。例如, 2000年2月17日提交的题为“System for Chinese tokenization and named entity recognition”的美国专利申请No.09/403,069。然而,概率模型方法 受数据稀疏(data sparseness)问题的影响比较大,而且需要使用复杂的解 码(decoding)方法在庞大的候选(candidate)网格(lattice)空间中进行 搜索。当训练(training)数据不够,或者计算资源不够的情况下(比如嵌 入式设备),概率模型不具备可行性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于松下电器产业株式会社,未经松下电器产业株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200610079890.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top