[发明专利]实体提取反馈有效
申请号: | 201380077066.4 | 申请日: | 2013-05-30 |
公开(公告)号: | CN105378706B | 公开(公告)日: | 2018-02-06 |
发明(设计)人: | S.布兰奇弗洛维 | 申请(专利权)人: | 朗桑有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 中国专利代理(香港)有限公司72001 | 代理人: | 张凌苗,陈岚 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 提取 反馈 | ||
背景技术
实体提取是自然语言处理的形式,其用于识别给定内容源(诸如电子文档)中的哪些项对应于特定实体。实体提取可以用于自动地从半结构化或非结构化内容源中提取并构造信息。可以使用实体提取而识别的实体的示例包括命名实体(诸如人或地方)以及其它类型的实体(诸如电话号码、日期、时间等等)。通常使用类型/值对来定义实体,例如类型=位置,值=芝加哥。
实体提取可以充当许多不同上下文中的有用工具。例如,在招聘场景中,职位候选人可以提供关于其各自简历的相当类似类型的信息,但是简历本身可能以完全不同的方式被格式化或结构化。在该场景中,实体提取可以用于从各种接收的简历中识别关键的信息片段(例如,姓名、联系信息、之前的雇主、教育机构等等),并且这样的所提取的实体可以用于填充候选人数据库以供招聘者使用。作为另一示例,实体提取可以用于监视可疑的恐怖分子之间的无线电谈话(chatter),并且识别和报告在这样的会话中所提及的地理位置。在该示例中,然后可以分析这样的地理位置以确定它们是否涉及会面位置、隐匿位置或潜在的目标位置。这些示例仅仅示出实体提取的宽范围的可能使用中的两个。
附图说明
图1是根据本文描述的实现方式的示例性实体提取环境的概念图解。
图2是根据本文描述的实现方式的用于基于实体提取反馈而修改实体提取规则集的示例性过程的流程图。
图3是根据本文描述的实现方式的用于处理实体提取反馈的示例性计算系统的框图。
图4是根据本文描述的实现方式的示例性系统的框图。
具体实施方式
许多实体提取系统利用某个形式的基于规则的模型来确定、分析和/或提取来自给定内容源的实体。在给定的实体提取系统中所定义和应用的规则集可以任意地复杂,范围从相对简单化到极端详细并且复杂。相对简单化的系统可以具有包括相对小数目的基本规则的规则集,而较精密的系统可以利用显著较高数目的规则和/或显著较复杂的规则。
一些实体提取系统可以包括使用机器学习的一个或多个元素来定义规则的某些部分或全部而生成的规则集。这样的系统一般意图涵盖更宽泛、更复杂范围的实体提取场景。可以应用在实体提取上下文中的机器学习方法的示例包括潜在语义分析、支持向量机、“词袋”以及其它适当的技术或技术的组合。使用这些方法中的一个或多个可以导致相当鲁棒的规则集,而且理解和/或维护起来相当复杂的规则集。
无论多么基本或多么复杂,任何基于规则的实体提取系统的共同特性是:系统可能仅与其相应的规则集所允许的那样准确。准确性,如该术语在此处所使用的那样,可以被定义为匹配大多数人类观察者将会识别为被包括在特定内容源中的一个或多个“正确”或“实际”实体的内容。考虑到可以通过实体提取系统分析的各种类型的源(例如网页、在线新闻源、因特网讨论群组、在线评论、博客、社交媒体等等),通常可能是这样的情况:特定的实体提取系统可能在分析特定类型的源时展现出高水平的准确性,但是在分析不同类型的源时可能不太准确。换言之,实体提取系统经常被有意或无意地调节成在特定上下文(例如理解简历)中比在其它上下文(例如监视可疑恐怖分子)中更好地起作用。
本文中描述了用于通过提供关于由相应的系统所生成的实体提取结果的更有用和详细的反馈来改进基于规则的实体提取系统的准确性的技术。系统虑及识别被包括在文档中的“正确”实体以及指示实际实体的文档的一个或多个特征的反馈,而不是仅仅提供给定情形中的“正确”实体提取结果。基于更详细的反馈,可以以更有针对性的方式来更新实体提取系统的规则集。本文描述的技术可以结合具有相对简单化或相对复杂的规则集的实体提取系统而使用以改进那些系统的准确性。从各图中以及从随后的描述中,这些和其它可能的益处和优点将显而易见。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于朗桑有限公司,未经朗桑有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380077066.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于对社交媒体的用户分类的方法、计算机程序和计算机
- 下一篇:智能选择引擎