[发明专利]识别自然语言中的命名实体的方法和装置有效
| 申请号: | 200610079890.5 | 申请日: | 2006-05-15 | 
| 公开(公告)号: | CN101075228A | 公开(公告)日: | 2007-11-21 | 
| 发明(设计)人: | 燕鹏举;孙羽菲;续木贵史 | 申请(专利权)人: | 松下电器产业株式会社 | 
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 | 
| 代理公司: | 中科专利商标代理有限责任公司 | 代理人: | 王玮 | 
| 地址: | 日本*** | 国省代码: | 日本;JP | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 识别 自然语言 中的 命名 实体 方法 装置 | ||
技术领域
本发明涉及语言处理方法和系统,特别是涉及识别自然语言中的命名 实体的方法和系统,从而能够提取语言信息,进行相应的处理。
背景技术
命名实体是指包括人名、地名、机构名、时间、数量等特定种类词的 集合。命名实体识别在信息提取、信息检索方面有着广泛的应用。
近年来,逐步式的命名实体(named entity,NE)识别或语块(chunk) 识别方法表现了比较高的性能。Taku Kudo,Yuji Matsumoto在2001年的 NAACL上发表的题为Chunking with Support Vector Machines的文章对此 做了说明。这些方法的主要特征是将识别分成若干前后相继的步骤,每一 步扫描输入句子中的一个词,通过观察当前词的上下文(context)特征 (feature),使用预定或者统计(stochastic)的方法预测当前词的标记 (token)。不同的方法使用不同的标记集合,但基本上包括B、I、E和O 四种,分别表示命名实体的起始(B)、中间(I)、结束(E)位置和不属 于命名实体(O)。在输入句子中所有词的标记确定之后,所有B、I、E 标记串就直接组成了命名实体。在识别中的每一步,识别器使用的特征是 包含在以当前词为中心的一个特征窗口内的局部特征。
表1是一个从句子的开始位置解析(parsing)到句子结束位置的方法 示例,下文称为前向解析。
表1
在表1中C表示当前词,L1和L2是当前词的左上下文,而R1和R2是右上下文。 特征窗口的大小是5,FC、和是特征窗口内每个词对应的特 征,而是前续词的识别标记。N/A表示当前时刻该特征还无法得到。
所谓特征是指所有一切在上下文中可以观察得到的信息。例如,这个 词是什么,词的长度,词性是什么,前面决定的该词对应的标记是什么, 等等,如下面的表2所示。具体使用什么样的特征,由系统设计人员根据 应用的特点来进行选定,目标是使系统达到最高识别性能。在表2所示的 前向解析中,当系统观察到所有这些特征时,它就可能对当前词“邓”作 出“B-PER”的标记预测。
表2
其中B-PER标记表示当前词是一个人名的开始。
在表2给出的示例中,以“继承”为例,在第三行中给出了该词的特 征为:词的内容是“继承”,词的长度是2,词性为动词,标记为O(说明 其不是命名实体)。
从上面的说明可以看到,逐步式的识别方法有一个缺点,就是只能使 用一个固定大小的特征窗口内的局部特征。由于长程(long distance)特征 没有得到使用,会造成起始边界B标记的误警(false alarm),即不是命名 实体起始边界的地方有可能被识别器认为是一个起始边界。Manabu Sassano,Takehito Utsuro在COLING2000:705-711中发表的题为“Named Entity Chunking Techniques in Supervised Learning for Japanese Named Entity Recognition”的文章提出一个可变长度模型(Variable Length Model) 的方法。其中特征窗口的大小可以在一个预先确定的范围内变化,可以看 出,该方法仍然不能处理任意长度范围内的特征。
一些基于概率(probabilistic)模型的方法可以使用全局特征。例如, 2000年2月17日提交的题为“System for Chinese tokenization and named entity recognition”的美国专利申请No.09/403,069。然而,概率模型方法 受数据稀疏(data sparseness)问题的影响比较大,而且需要使用复杂的解 码(decoding)方法在庞大的候选(candidate)网格(lattice)空间中进行 搜索。当训练(training)数据不够,或者计算资源不够的情况下(比如嵌 入式设备),概率模型不具备可行性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于松下电器产业株式会社,未经松下电器产业株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610079890.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种复合面粉添加剂及其制备方法
 - 下一篇:一种回收甲苯的方法
 





