[发明专利]知识查询装置和方法有效
申请号: | 201010577623.7 | 申请日: | 2010-12-07 |
公开(公告)号: | CN102567314A | 公开(公告)日: | 2012-07-11 |
发明(设计)人: | 赵鹏;刘国萍;顾茜;杨明川;广小明;冯晓冬;贾海燕;雷葆华;饶少阳;蔡永顺 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 孙宝海 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识 查询 装置 方法 | ||
技术领域
本发明涉及云计算技术领域,特别地,涉及一种知识查询装置和方法。
背景技术
互联网上的数据量大、分布存储、异构和非结构化使得Web数据挖掘的搜索空间增大,维数高,发现知识的盲目性变高。如果借助数据的语义信息则能够进行有效地数据筛选、降低维数、并提高数据质量。
传统的数据挖掘方法基于命题逻辑和单表结构,描述能力弱,无法处理资源描述框架(Resource Description Framework,RDF)三元组表示的Web资源。基于归纳逻辑程序设计(Inductive Logic Programming,ILP)的方法在近些年得到广泛研究和应用,一方面能够有效处理多关系数据结构,另一方面在挖掘过程中还可以充分利用本体描述的领域知识,发挥语义计算的潜能。
无论是基于命题逻辑的方法还是基于归纳逻辑程序设计的ILP方法,在面临海量Web数据挖掘时,都要解决样本量或子句空间过大、单机存储容量受限的问题,云计算技术提供的海量数据分布式存储和MapReduce(是Google提出的一个软件架构,用于大规模数据集的并行运算)并行计算能力恰好提供了有益的补充。
图1是现有技术中云计算服务分类示意图。
如图1所示,云计算技术按照服务层次可以分为基础设施即服务(IaaS,Infrastructure as a Service)、平台即服务(PaaS,Platform as aservice)和软件即服务(SaaS,Software as a service)。SaaS应用普及后,一方面在云端积累大量托管数据,这些数据得不到有效挖掘利用;另一方面,由于SaaS应用面向专业市场和特定领域,在SaaS应用之间彼此形成信息孤岛,无法保证语义一致性,无法实现有效地信息共享。
此外,目前还不能对SaaS应用和互联网应用数据进行有效地挖掘和利用,因而无法为用户提供语义查询和知识服务。
发明内容
本发明要解决的一个技术问题是提供一种知识查询装置和方法,能够有效挖掘SaaS应用和互联网应用,从而为用户提供语义查询和知识服务。
根据本发明的一方面,提出了一种知识查询装置,包括领域知识库、数据抽取预处理模块、并行数据挖掘模块、查询引擎模块以及存储计算模块,存储计算模块包括多个并行的存储计算节点,其中,领域知识库,用于存储以本体描述的多个概念、多个概念之间的关联关系以及指向RDF描述数据的索引结构;数据抽取预处理模块,分别与领域知识库和存储计算模块相连,用于将从数据源中抽取的Web页面缓存到多个并行的存储计算节点中,对Web页面进行聚类分析,对聚类分析出的结果进行RDF描述,以及将RDF描述数据抽象出的概念添加到领域知识库中、和/或与领域知识库中的概念建立关联关系,并在领域知识库中建立指向RDF描述数据的索引结构;每个存储计算节点,用于对数据抽取预处理模块缓存的Web页面进行局部挖掘,以学习出局部规则;并行数据挖掘模块,分别与领域知识库和存储计算模块相连,用于从领域知识库中读取索引结构,根据索引结构计算Map并行处理的任务数和每个任务所在的存储计算节点,从每个任务所在的存储计算节点收集挖掘出的局部规则,并根据所收集的局部规则生成全局规则,利用全局规则更新领域知识库;查询引擎模块,分别与领域知识库和存储计算模块相连,用于接收概念查询和知识实例查询请求,在领域知识库中进行概念查询,以及根据待查询知识实例对各存储计算节点上的RDF描述数据进行查询。
根据本发明装置的一个实施例,该装置还包括语义推理模块,分别与查询引擎模块和领域知识库相连,用于在领域知识库中查询不到待查询概念的情况下对待查询概念进行推理,以在领域知识库中找到与待查询概念语义距离最近的概念。
根据本发明装置的另一实施例,查询引擎模块包括概念查找单元,用于从领域知识库中查找与待查询知识实例对应的概念和子概念;节点查找单元,与概念查找单元相连,用于根据索引结构查询与概念和子概念对应的RDF描述数据所在的存储计算节点;查询请求单元,与节点查找单元相连,用于向查询出的存储计算节点发出并行查询请求,并接收查询出的存储计算节点返回的RDF描述数据。
根据本发明装置的又一实施例,数据源包括SaaS应用和互联网应用中的至少一种。
根据本发明装置的再一实施例,全局规则包括关联关系和分类规则中的至少一种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010577623.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:无缝拼接显示屏及其制造方法
- 下一篇:凸面双闪耀光栅的制备方法