[发明专利]远程监督关系提取器在审
| 申请号: | 201580053565.9 | 申请日: | 2015-10-01 |
| 公开(公告)号: | CN107077463A | 公开(公告)日: | 2017-08-18 |
| 发明(设计)人: | A·夏尔马;张见闻;S·阿罗尼超;柳元沇;汪瑜婧 | 申请(专利权)人: | 微软技术许可有限责任公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
| 代理公司: | 北京市金杜律师事务所11256 | 代理人: | 王茂华,丁君军 |
| 地址: | 美国华*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 远程 监督 关系 提取 | ||
背景技术
填充描述实体与实体的属性之间的关系的事实数据库通常要求聚集以高水平的精度聚集很多信息。手动地填充大型事实数据库是耗时的、昂贵的并且常常不切实际的。由于在没有人类监督的情况下使用不一致的语言、单元和格式从变化的结构化、半结构化和非结构化信息源以必要的精度提取数据中的困难,因而自动地填充事实数据库也可以是耗时的。常规自动事实提取技术包括模式匹配和自然语言处理。
模式匹配通常地使用手工制作和硬编码的正则表达式和/或特定规则,其依赖于以相同顺序使用相同词语被表达的信息。在没有综合模式集的情况下,关系的许多表达可能被错失。添加更多模式可以降低错失的表达的数目,而且可能导致收集无关的数据。最终,虽然仔细的模式匹配可能改进,但是创建模式是耗时的、昂贵的并且不可扩展的。
使用统计模型的自然语言处理不由特定模式限制,但是建立好的模型要求许多适当地注释的训练数据。手动地注释大型数据集以建立高精度模型是耗时的并且昂贵的。相反,使用更小的数据集或者更少的监督降低时间和成本,而且增加错失正确关系或者收集不正确关系的可能性。
待解决的技术问题涉及在最小人类介入和高精度的情况下自动地找到非结构化数据中的关系。关于这些和其他考虑,已经做出本发明。虽然已经讨论了相对特定的问题,但是应当理解,本文所公开的方面不应当限于解决背景技术中所标识的特定问题。
发明内容
提供该概述以引入以在详细描述章节中下文进一步描述的简化形式的概念的选择。该概述不旨在标识所要求保护的主题的关键特征或基本特征,其也不旨在用作辅助确定所要求保护的主题的范围。
关系提取器的方面包括将在最小人类介入的情况下使用根据大型未标记的数据集建立的统计实体类型预测和关系预测模型的机器学习方法和基于轻模式的方法交互式地组合,以从非结构化、半结构化和结构化文档提取关系。关系提取器通过将针对来自现有事实数据库的已知实体的真相与描述已知实体的文档中的文本相匹配来从未标记的文档的集合收集训练数据,并且建立针对一个或多个关系类型的对应的模型。对于建模的关系类型而言,关系提取器找到文档中的感兴趣的文本数据块。机器学习分类器预测文本数据块之一是正被寻找的实体的概率。组合的机器学习和基于轻模式的方法通过过滤提供经改进的查全率和高精度并且允许所提取的关系的约束和归一化。
关系提取器包括文档解析器、自然语言处理器和一个或多个二元分类器。可选的页面类型分类器分析文档并且确定针对每个文档的页面类型。页面类型可以被用于确定文档是否描述具有主题类型的主题匹配与正被搜索的关系类型兼容的主题类型。
文档解析器读取文档的本地格式并且从文档提取文本以用于处理。文档的内容可以是结构化或非结构化的数据。自然语言处理器提供用于检测参与在文档中正被搜索的所选择的关系类型的所选择的对象类型的对象的提及的逻辑。一旦提及被检测到,自然语言处理器就提取与提及相关联的特征。所提取的特征可以被编译为作为输入被供应到二元分类器的特征向量。
对于自动地训练预测模型而言,自动标记器使用从现有事实数据库所收集的已知事实来将提及特征标记为肯定训练示例或否定训练示例,并且建立大型训练数据集。训练数据中的一些或全部被馈送到二元分类器中以建立一个或多个预测模型,其可以包括关系预测模型和实体预测模型。使用初始预测模型做出的预测经由用户接口被呈现给用户以用于验证。该用户验证使用初始预测模型做出的少量的预测是正确还是不正确的。基于从用户接收到的输入,预测模型被重新训练以产生在运行时期间所使用的最终预测模型来处理所选择的文档(包括具有一个或多个未知关系的文档)。该用户还可以指定被用于建立基于模式的模型的一个或多个规则以自定义关系提取。
附图说明
本公开的进一步的特征、方面和优点将通过参考以下附图变得更好理解,其中元素不按比例以便更清楚地示出细节,并且其中相同参考数字贯穿数个视图指代相同元素:
图1是图示关系提取器的方面的系统图;
图2是图示用于以高精度从非结构化文本提取关系的方法的方面的高层流程图;
图3图示了在数据提取操作期间所生成的视图和模板的方面;
图4是图示适于实践本发明的方面的计算设备的物理部件的框图;
图5A图示了适于实践本发明的方面的移动计算设备;
图5B是图示适于实践本发明的方面的移动计算设备的架构的框图;以及
图6是利用其可以实践本发明的方面的分布式计算系统的简化框图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201580053565.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:扬声器测试装置
- 下一篇:无线通信耳机检测装置和方法





