[发明专利]互联网超链接网络图数据的简化方法有效
申请号: | 201210177910.8 | 申请日: | 2012-05-31 |
公开(公告)号: | CN102750263A | 公开(公告)日: | 2012-10-24 |
发明(设计)人: | 毛国勇;张永春;张燕红;高敏;廉春原 | 申请(专利权)人: | 常州工学院 |
主分类号: | G06F17/20 | 分类号: | G06F17/20 |
代理公司: | 常州市江海阳光知识产权代理有限公司 32214 | 代理人: | 汤志和 |
地址: | 213011 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 互联网 超链接 网络图 数据 简化 方法 | ||
技术领域
本发明涉及一种互联网超链接网络图数据的简化方法。
背景技术
在数学上,一个图(Graph)是表示物件与物件之间的关系的方法,是图论的基本研究对象。一个图看起来是由一些小圆点(称为顶点或结点)和连结这些圆点的直线或曲线(称为边)组成的。
在金融、生物信息、社会学、交通管理、互联网的超链接网络以及软件工程等多个领域,经常需要对大规模图数据进行分析,而对数据的可视化则是分析、理解这些数据的直观、有效的方法,受到了越来越多的关注。由于很难一次性载入大规模数据进行分析,人们通常先根据图的特性将原始图简化,得到具备一定代表性意义的母图的缩略图,然后再通过子图与母图交互,根据需要对数据进行显示、分析。
图简化方法通常分为图聚合法和图过滤法两类。图聚合法将多个点合并,将多条边合并,从而减小图的大小,并揭示一组点间的关系。这种方法可以被多次重复,从而得到层次化的图。但是,用这种方法得到的合并后的点和边失去了其原始的语义,因此,简化后子图的代表性不强。
与图聚合法相比,图过滤法能够保留点和边的语义,因为简化后的图是原始图的子图。图过滤法又分为随机性过滤和确定性过滤两种。随机性过滤也称为采样,用来从大规模图中得到代表性的样本。但是,由于对数据进行随机采样,因此,用这种简化方法得到的子图的代表性也不强。确定性过滤采用确定性的算法来选择待移除的点和边,这种过滤可以基于点和边的性质以及图的拓扑结构等特性。目前使用最多的是基于介数进行过滤的方法,介数表示的是一个节点位于其它节点间的最短路径上的频率,频率越高,则该点的介数越高,该点就越重要。这种方法得到的简化子图的代表性最好,但是,由于介数方法需要计算所有顶点间最短路径,而所有顶点间最短路径的计算非常耗时,因此,该方法难以应用于大规模图数据的简化。
互联网的超链接网络中,近十几年来,随着互联网的普及和Web2·0技术的推动,网页数量增长迅猛,据CNNIC统计,2010年中国网页规模达到600亿,年增长率78.6%,而基于互联网的社交网络也后来居上,如全球最大的社交网络Facebook,已有约7亿用户,国内如QQ空间、人人网等,发展也异常迅猛。
真实世界中实体规模的扩张,导致对应的图数据规模迅速增长,动辄有数十亿个顶点和上万亿条边。面对这样大规模的图数据,对海量数据处理技术提出了巨大挑战。以搜索引擎中常用的PageRank计算为例,一个网页的PageRank得分根据网页之间相互的超链接关系计算而得到。将网页用图顶点表示,网页之间的链接关系用有向边表示,按邻接表形式存储100亿个图顶点和600亿条边,假设每个顶点及出度边的存储空间占100字节,那么整个图的存储空间将超过1TB。如此大规模的图,对其存储、更新、查找等处理的时间开销和空间开销远远超出了传统集中式图数据管理的承受能力。针对大规模图数据的高效管理,对大规模图数据进行简化,已经成为急需解决的问题。
相关参考文献:
[1] 《图论导引》,美国: Gray chartrand , Ping Zhang著,范益政,汪毅,朱明译,人民邮电出版社,2007年9月第1版,ISBN: 9787115161536;
[2] 《图论算法理论、实现及应用》,中国:王桂平,王衍,任嘉辰主编,北京大学出版社,2011年1月第1版,ISBN: 978-7-301-17578-1/TP·1122;
[3] 《离散数学》,中国:左孝凌、李为鉴、刘永才著,上海科学技术文献出版社,1982年9月第一版,ISBN:7805130698, 9787805130699。
发明内容
本发明的目的是:一、针对目前图简化方法得到的子图的代表性不强或计算复杂度过大的问题,提出一种基于宽度优先遍历的大规模图数据的简化方法,该方法的计算速度快且得到的简化子图具备较强的代表性;二、针对目前海量的互联网的超链接网络的图数据,提出一种新的基于宽度优先遍历的互联网的超链接网络的图数据的简化方法,通过该简化后的骨干节点和链接的网络,以解决互联网数据高效管理的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常州工学院,未经常州工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210177910.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:冷水鱼孵化水加热装置
- 下一篇:一种汽车行驶状态记录装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置