[发明专利]一种基于置信度验证元组的控制方法在审

专利信息
申请号: 201210349679.6 申请日: 2012-09-19
公开(公告)号: CN102968432A 公开(公告)日: 2013-03-13
发明(设计)人: 陈超;林欣 申请(专利权)人: 华东师范大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 隆天国际知识产权代理有限公司 72003 代理人: 张龙哺;冯志云
地址: 200241 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 置信 验证 控制 方法
【说明书】:

技术领域

发明涉及自然语言处理、数据挖掘、数据存储、数据的高可靠性计算等技术领域,具体来说,是一种基于互联网的用于验证关系元组正确性的实用方法。

背景技术

近年来,互联网以超乎想象的速度迅速发展,各种信息和数据陆续登陆互联网。尤其是最近一段时间以来,互联网逐渐成为了信息的源头。然而,数据的极大丰富并不只是为人们的生产、生活和学习带来便利,同时带来的还有信息的冗余和查找数据的困难。因此,研究互联网的数据,并快速地为读者提供其感兴趣的信息成为了一个热门的研究领域。

自然语言处理是解决此类问题的关键研究领域,而自然语言处理技术是解决此类问题的核心技术。目前,监督的学习算法、半监督的学习算法、无监督的学习算法、核方法和基于统计的方法是研究的主流,广泛地用于各种实验项目和应用项目。通常来说,这些算法都有其优点和不足,算法的整合通常能带来实验和应用效果的改善。

关系挖掘是自然语言处理中的一个子任务,其主要用于挖掘实体之间的关系。目前,关于关系挖掘的研究主要集中在寻找合适的挖掘算法。由于自然语言的复杂性,目前,还没有一个公认的完备的方法被所有研究者所认可。因此,各种用于关系挖掘的算法都不能保证输出元组的正确性。本文提出的基于互联网的关系元组验证方法是用于验证元组正确性的算法。其实施的先决条件是信息的冗余。该方法通过为人工提供的种子元组构建标准模板库,并为待验证的元组构建待验证模板库来进行关系元组的验证。因此,自然语言处理中的半监督学习算法是其基本的构建原理。同时,该方法还运用了数据挖掘技术,数据存储技术等基础技术。通过为关系元组提供验证,有效地提高了输出元组集合的正确率,改善了信息查询精度和质量。

发明内容

针对现有关系挖掘研究中,仅注重寻找关系挖掘算法,忽略关系元组验证的不足,本发明旨在提出一种通用的面向互联网的关系元组验证方法。

根据本发明的一个方面,提供面向互联网的关系元组验证方法,包括获取模板的原理、获取模板的方法、元组验证的方法,其中,获取模板的原理包括进行元组验证的先决条件,应用的环境和进行元组验证的基本理论基础;获取模板的方法包括如何获得元组的共现句,如何扫描和获取模板;元组验证的方法包括,进行模板匹配的方法,根据元组的置信度,判断元组的正确性,以及更新种子模板库。

根据本发明的另一个方面,还提供一种在关系数据挖掘系统中基于置信度验证元组的控制方法,其特征在于,包括如下步骤:a.提取待验证元组的最小覆盖模板集;b.根据待验证元组的最小覆盖模板集以及标准模板库计算待验证元组的置信度;c.根据所述置信度确定所述待验证元组是否可信;以及d.根据确定为可信元组的待验证元组的最小覆盖模板集更新所述标准模板库。

根据本发明的另一个方面,还提供一种面向互联网的关系元组验证方法,包括获取模板的原理、获取模板的方法和验证的方法,其特征在于,获取模板的原理用于介绍进行元组验证的条件、应用环境和获取模板的理论依据和原理;获取模板的方法用于在原理的基础上抽取合适的用于验证元组的模板,并向验证方法进行模板输送;元组验证的方法用于接收模板,并将由待验证元组生成的模板与由种子元组生成的模板进行匹配,根据置信度判断元组的正确性,最后,根据新产生的正确的元组生成的模板更新标准模板库。

优选地,所述获取模板的原理包括:元组由一对实体关键词和表示其关系的关系关键词组成,进行元组验证的前提条件是信息冗余,实现元组验证的应用环境是开放的互联网及广泛使用的搜索引擎,获取模板的原理是关系元组的文本最小覆盖;所述获取模板的方法包括:得到关系元组的共现句的方法,对共现句进行扫描和处理,得到用于验证元组正确性的模板的方法;所述验证的方法包括:将由待验证元组生成的模板与由种子元组生成的模板进行完全匹配,得出待验证元组的置信度,并根据其置信度判断元组的正确性,最后,根据验证得到的新元组产生的模板更新标准模板库。

优选地,获取模板的方法根据获取模板的原理,生成用于验证的模板,验证的方法根据得到的模板对相应的元组进行置信度的计算,并更新标准模板库。

优选地,关系元组由两个实体关键词和一个关系关键词组成,具有如下结构<实体1,实体2,关系关键词>。

优选地,获取模板的原理指出,信息冗余是进行关系元组验证的先决条件,开放的互联网和搜索引擎是获取相关信息的主要途径。

优选地,覆盖关系元组的最小文本片段,简称最小覆盖是面向互联网的关系元组验证方法的模板获取原理。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210349679.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top