[发明专利]大规模信息网络中数据语义信息的处理方法有效

申请号：	201310300558.7	申请日：	2013-07-17
公开（公告）号：	CN103412879B	公开（公告）日：	2016-11-30
发明（设计）人：	王小峰;苏金树;任沛阁;吴纯青;胡晓峰;黄杰;赵锋;虞万荣;彭伟;陶静;孙浩	申请（专利权）人：	中国人民解放军国防科学技术大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	湖南兆弘专利事务所(普通合伙) 43008	代理人：	周长清
地址：	410073 湖南省长沙市砚瓦池正街4***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	大规模信息网络数据语义信息处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明主要涉及到信息网络中数据处理领域，特指一种大规模信息网络中数据语义信息的处理方法，特指一种对任意维度、任意类型的语义信息进行规格化处理的方法。

背景技术

随着信息技术的发展及计算机网络的普及，信息在社会中发挥着越来越大的作用，深刻影响着人们的生产、生活和学习方式。随着时代的进步，网络中的信息资源呈指数增长且日趋复杂化，变现形式各异；同时，用户对信息资源的需求也在不断提高，因此如何从海量的网络信息资源中获取用户想要的结果变得更加困难。传统基于关键字的信息管理和搜索方法根据数据信息的表现形式（语法层次）进行数据组织和查询，不能满足用户智能的信息需求。因此有必要从语义层次上（提取网络数据信息的关键属性）分析管理网络中的数据，通过比较、关联及聚合数据信息间语义上的相关性，高效实现大规模数据信息智能管理和发现。

信息网络中存在丰富的数据信息，但是由于人们缺乏有效的数据组织管理方法，造成了“数据丰富而信息缺乏”的状况。信息网络中数据对象包含的信息量越来越丰富，可能包含几百甚至成千上万个属性。为了在海量的网络数据中组织和发现用户需要的信息，传统方法将数据对象表示成高维属性空间中的点或向量，从而将网络中的数据对象集用高维数据集合来表示。但网络中大量的高维数据也导致了“维度灾难”（curses of dimensionality）问题的出现，“维度灾难”指在数据分析中遇到的由于变量（属性）过多而引起的所有问题。这些问题主要表现以下几个方面：1.高维空间数据分布非常稀疏，很难对有相似语义的数据信息进行有效的组织管理，在发现有相似语义的数据信息时，需要访问较大的空间区域；2.在高维空间中一个给定数据点到其最近邻和最远邻在很多情况下几乎是等距的，不能高效地组织和发现与该数据点语义相近的数据信息；3.随着维数的升高，高维数据空间中数据索引节点之间的重叠度随之增大，当对给定数据信息进行语义搜索查询时，重叠度的加大增加了查询访问路径，从而增加了查询代价，当维数增加到一定数量时，采用索引结构反而不如顺序扫描。

近年来，围绕着高维数据带来的问题，学者们提出了不同的解决方法，试图在特定的应用背景下解决“维度灾难”的问题，总结起来有以下几种：

1.基于过滤的方法。基于过滤的方法是指通过过滤一些向量以便信息检索过程中只需访问较少部分的向量，可以通过多种途径实现，聚类、分类及潜在语义分析(LSI)是常用的手段。三角不等式d(i,q)≥|d(i,k)-d(q,k)|也是一个有效的过滤方法，其中d为距离度量公式，q和k分别代表特征向量，利用该公式进行特征向量过滤。VA-File及其一系列变形是相对于近似最近邻搜索的一种精确搜索方法，例如：中国专利申请号为03129687.4、名称为“一种高维矢量数据快速相似检索方法”记载的技术方案也属于基于过滤的方法。这类方法将空间划分为2b个超立方体形状的单元，b是用户指定的位串长度，用来近似估计原始特征向量，为每一个单元分配一个惟一位串值，并用这个位串近似表示落在该单元内部的原始特征向量。当对点进行搜索时，先对近似文件进行顺序扫描，需要时再通过一些查找项对精确文件进行查找。这种近似文件的表示比原始的向量文件小得多，存储耗费也小得多，在高维情况其性能超过了顺序扫描和绝大多数多维索引方法，但是存在两个主要缺陷：随着维数的增加，需要更多的位来近似表示特征向量；对于非均匀分布的数据，该方法的性能急剧下降。

2.对数据空间进行划分的索引方法。此类方法通过划分数据空间、根据划分对数据进行聚类并利用划分对搜索空间进行剪枝以提高查询效率。这类方法根据数据空间的划分不同可分为两类，一类是K-D树演化而来的，包括K-D树、K-D-B树及LSDh树等；一类则是由R树演化而来，包括R树、R*树、SS树及X树等。前类使用空间划分方法，沿着预先定义的超平面来划分数据空间，而不考虑数据的分布，得到的区域相互分离的；后者使用数据划分方法，根据数据的分布对数据空间进行划分，这样得到的区域会产生一定的重叠。此类方法在处理低维数据时效果很好，但由于高维空间中数据分布的稀疏性，在处理高维数据时其性能甚至差于顺序扫描。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学，未经中国人民解放军国防科学技术大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310300558.7/2.html，转载请声明来源钻瓜专利网。

上一篇：一种异构存储介质下嵌入式数据库的管理方法
下一篇：用于文本或网络内容分析的大规模特征匹配的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]大规模信息网络中数据语义信息的处理方法有效

专利文献下载