[发明专利]大规模信息网络中数据语义信息的处理方法有效
| 申请号: | 201310300558.7 | 申请日: | 2013-07-17 |
| 公开(公告)号: | CN103412879B | 公开(公告)日: | 2016-11-30 |
| 发明(设计)人: | 王小峰;苏金树;任沛阁;吴纯青;胡晓峰;黄杰;赵锋;虞万荣;彭伟;陶静;孙浩 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 周长清 |
| 地址: | 410073 湖南省长沙市砚瓦池正街4*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 大规模 信息网络 数据 语义 信息 处理 方法 | ||
技术领域
本发明主要涉及到信息网络中数据处理领域,特指一种大规模信息网络中数据语义信息的处理方法,特指一种对任意维度、任意类型的语义信息进行规格化处理的方法。
背景技术
随着信息技术的发展及计算机网络的普及,信息在社会中发挥着越来越大的作用,深刻影响着人们的生产、生活和学习方式。随着时代的进步,网络中的信息资源呈指数增长且日趋复杂化,变现形式各异;同时,用户对信息资源的需求也在不断提高,因此如何从海量的网络信息资源中获取用户想要的结果变得更加困难。传统基于关键字的信息管理和搜索方法根据数据信息的表现形式(语法层次)进行数据组织和查询,不能满足用户智能的信息需求。因此有必要从语义层次上(提取网络数据信息的关键属性)分析管理网络中的数据,通过比较、关联及聚合数据信息间语义上的相关性,高效实现大规模数据信息智能管理和发现。
信息网络中存在丰富的数据信息,但是由于人们缺乏有效的数据组织管理方法,造成了“数据丰富而信息缺乏”的状况。信息网络中数据对象包含的信息量越来越丰富,可能包含几百甚至成千上万个属性。为了在海量的网络数据中组织和发现用户需要的信息,传统方法将数据对象表示成高维属性空间中的点或向量,从而将网络中的数据对象集用高维数据集合来表示。但网络中大量的高维数据也导致了“维度灾难”(curses of dimensionality)问题的出现,“维度灾难”指在数据分析中遇到的由于变量(属性)过多而引起的所有问题。这些问题主要表现以下几个方面:1.高维空间数据分布非常稀疏,很难对有相似语义的数据信息进行有效的组织管理,在发现有相似语义的数据信息时,需要访问较大的空间区域;2.在高维空间中一个给定数据点到其最近邻和最远邻在很多情况下几乎是等距的,不能高效地组织和发现与该数据点语义相近的数据信息;3.随着维数的升高,高维数据空间中数据索引节点之间的重叠度随之增大,当对给定数据信息进行语义搜索查询时,重叠度的加大增加了查询访问路径,从而增加了查询代价,当维数增加到一定数量时,采用索引结构反而不如顺序扫描。
近年来,围绕着高维数据带来的问题,学者们提出了不同的解决方法,试图在特定的应用背景下解决“维度灾难”的问题,总结起来有以下几种:
1.基于过滤的方法。基于过滤的方法是指通过过滤一些向量以便信息检索过程中只需访问较少部分的向量,可以通过多种途径实现,聚类、分类及潜在语义分析(LSI)是常用的手段。三角不等式d(i,q)≥|d(i,k)-d(q,k)|也是一个有效的过滤方法,其中d为距离度量公式,q和k分别代表特征向量,利用该公式进行特征向量过滤。VA-File及其一系列变形是相对于近似最近邻搜索的一种精确搜索方法,例如:中国专利申请号为03129687.4、名称为“一种高维矢量数据快速相似检索方法”记载的技术方案也属于基于过滤的方法。这类方法将空间划分为2b个超立方体形状的单元,b是用户指定的位串长度,用来近似估计原始特征向量,为每一个单元分配一个惟一位串值,并用这个位串近似表示落在该单元内部的原始特征向量。当对点进行搜索时,先对近似文件进行顺序扫描,需要时再通过一些查找项对精确文件进行查找。这种近似文件的表示比原始的向量文件小得多,存储耗费也小得多,在高维情况其性能超过了顺序扫描和绝大多数多维索引方法,但是存在两个主要缺陷:随着维数的增加,需要更多的位来近似表示特征向量;对于非均匀分布的数据,该方法的性能急剧下降。
2.对数据空间进行划分的索引方法。此类方法通过划分数据空间、根据划分对数据进行聚类并利用划分对搜索空间进行剪枝以提高查询效率。这类方法根据数据空间的划分不同可分为两类,一类是K-D树演化而来的,包括K-D树、K-D-B树及LSDh树等;一类则是由R树演化而来,包括R树、R*树、SS树及X树等。前类使用空间划分方法,沿着预先定义的超平面来划分数据空间,而不考虑数据的分布,得到的区域相互分离的;后者使用数据划分方法,根据数据的分布对数据空间进行划分,这样得到的区域会产生一定的重叠。此类方法在处理低维数据时效果很好,但由于高维空间中数据分布的稀疏性,在处理高维数据时其性能甚至差于顺序扫描。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310300558.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





