[发明专利]提取命名实体的方法无效
申请号: | 201080066473.1 | 申请日: | 2010-04-27 |
公开(公告)号: | CN102844755A | 公开(公告)日: | 2012-12-26 |
发明(设计)人: | 姚从磊;熊宇红;郑李炜 | 申请(专利权)人: | 惠普发展公司;有限责任合伙企业 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 谢攀;卢江 |
地址: | 美国德*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提取 命名 实体 方法 | ||
背景技术
互联网的出现导致了像以前从来没有过的信息爆炸。每天有数千文档上载,网络已成为搜索信息的最喜欢的地方。命名实体(NE named entity)搜索是搜索正确信息的机制之一。命名实体通常是指词或词组,例如公司、人的名称、位置、时间、日期、数值等。命名实体搜索可以使查找相关信息的任务变得相对容易。不过,如果在互联网上进行搜索,假设搜索文档的文集(corpus)可能潜在地是数百万文档,搜索具有多个简单命名实体的复杂命名实体(例如词组)不是小任务。
已经报告过用于命名实体提取的若干种方法。这些方法中的一些利用机器学习技术来训练模型,以从高质量的新闻专线文本提取公共命名实体。它们集中于针对特定的典型NE类型使用统计模型,例如隐马尔可夫模型、规则学习和最大熵马尔可夫模型。这些研究从手工加标签的训练文集中学习模型或规则,因此模型和规则仅对类似的文集有效,而对于具有不同统计特性或不同流派或风格的其他文集表现不佳。由于针对每种特定NE类型的训练模型成本高昂,所以这些方法不能满足一般命名实体提取的需求。
附图说明
为了更好地理解本发明,现在将参考附图完全以举例的方式描述实施例,在附图中:
图1示出了根据实施例的命名实体提取的计算机实施的方法的流程图。
图2示出了根据实施例的图1的方法的子例程的流程图。
图3示出了根据实施例的命名实体图的示范性图解表示。
图4示出了可以在其上实施实施例的计算机系统400的方框图。
具体实施方式
在包括附图的整个文档中可互换地使用以下术语。
(a) “节点”和“命名实体”
(b) “文档”和“电子文档”
本发明的实施例提供了用于从文档或文档文集提取命名实体(NE)的方法、计算机可执行代码和计算机存储介质。
本发明的实施例旨在在低质量文集上执行命名实体的有效提取,并以最低成本提取任何类型的实体。所提出的方法适应文档的多样性(例如在有组织的网页中),并且在大规模文集上提取大量命名实体是高效的。实施例从大规模文档文集有效地提取命名实体,在这种文档文集中,内容的冗余性不如网络规模的文集显著。
图1示出了根据实施例的提取命名实体的方法100的流程图。可以在计算机系统(或计算机可读介质)上执行方法100。
该方法在步骤110中开始。在步骤110中,访问文档或文档文集,并且识别文档或文档文集中出现的命名实体(NE),利用一些现有资源可以从其人工或自动形成种子实体集合。
文档文集可以是电子文档的集合,例如但不限于网页的集合。可以从诸如电子数据库之类的储存库(repository)获得文档。电子数据库可以是内部数据库,例如公司的内部网或外部数据库例如Wikipedia。而且,电子数据库可以存储在独立的个人计算机上或遍布在多个计算机器上,利用有线或无线技术联网在一起。例如,电子数据库可以被托管(host)在通过广域网(WAN)或互联网而连接的多个服务器上。
在实施例中,识别文集(例如内部网中的网页)中出现的所有可能的命名实体而不考虑其类型。该步骤识别简单和复杂的命名实体这二者。作为例示,可以识别简单实体,例如人名(“Jack Sparrow”)和位置(“曼谷”)。也可以识别复杂命名实体,例如产品名称(“Compaq Presario 3434 with HP Printer 4565”)和项目名称(“Entity Extraction Project in ABC Department”),而不论其类型如何。
在实施例中,可以使用一种基于排列(collocation)的方法(例如,D. Downey等人在Proc. of IJCAI,2007中的“Locating complex named entities in web text”所述的方法)来识别命名实体。不过,本实施例使用不同的方法判断命名实体的边界。它使用具有数字的项目(term)作为命名实体边界的标识符,并使用预定义的阈值来选择对称条件概率(SCP)高于阈值的候选者作为命名实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于惠普发展公司;有限责任合伙企业,未经惠普发展公司;有限责任合伙企业许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201080066473.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种低阻力水平式样品架机构
- 下一篇:非连续接收方法和设备