[发明专利]一种基于多选择器组合的影响最大化结构在审
申请号: | 201611085292.9 | 申请日: | 2016-11-30 |
公开(公告)号: | CN106777926A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 尚家兴;武红春;周尚波;林晓然;齐颖;许冶金 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 北京同恒源知识产权代理有限公司11275 | 代理人: | 赵荣之 |
地址: | 400044 重*** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 选择器 组合 影响 最大化 结构 | ||
技术领域
本发明属于计算机数据挖掘领域,具体涉及一种利用多选择器组合有效求解影响最大化问题的方法,尤其涉及如何准确求解影响最大化问题。
背景技术
近年来,随着移动互联网的快速发展和社交媒体的兴起,社会关系网络的研究受到了越来越多学者的重视。针对社会关系网络,其中一个很重要的研究点是影响最大化(Influence Maximization),它是近几年社会关系网络研究的一个热点。
Kempe等最先给出影响最大化问题的形式化定义:给定网络G(V,E)(其中V代表图中的节点集合,E代表图中边的集合),如何在节点集合V中寻找k个种子节点组成的集合S,使得在某种传播模型下,从这k个种子节点开始传播,最终的影响范围最广,即使得V中影响的节点数目σ(S)最大,即S*=argS maxσ(S)。影响最大化的研究,无论在网络营销、舆论控制等方面都具有很强的现实应用背景。
在经典的LT(Linear Threshold)和IC(Independent Cascade)传播模型下,Kempe等不仅证明了影响最大化问题是NP难题,并且证明了影响最大化问题的目标函数σ(S)是次模(Submodularity)函数。次模函数被定义为:对于集合函数f:2V→R,若 满足:
f(S∪{v})-f(S)≥f(T∪{v})-f(T)
则称函数f为次模函数。结合次模函数的性质,Kempe等提出了一个爬山式贪心(Greedy)算法来解决此问题。该算法从一个空集合Φ开始构造S,每次从V中迭代地选择一个能带来最大目标函数增益的节点v加入到S中,直到满足条件:|S|=k。贪心算法在理论上至少保证可达到最优目标的(1-1/e-ε)。其中,e是自然对数的底,ε是任意小的正实数。不难看出,贪心算法至少达到对应最优目标的63%。在大量真实数据集上的实验结果表明,贪心算法的效果已经很接近最优解。然而,贪心算法也存在着一个明显的缺陷,由于算法需要运行上万次的蒙特卡洛仿真来计算给定S时的目标函数值σ(S),从而极大地限制了该算法在大型网络上的应用。因此后续的相关研究主要围绕如何在保证算法解的质量的前提下,提高算法效率。
(1)基于次模特性的算法
Leskovec等充分利用了次模函数的性质对Greedy算法效率进行优化,并提出了CELF(Cost-Effective Lazy Forward)算法。具体地,在每一轮评估节点带来的目标函数增益时,CELF算法会将该节点对应的增益值保存起来。到下一轮迭代时,若某个节点带来的目标函数增益超过了其他节点上一轮的增益,则由Submodularity的性质可知,该节点的增益必然大于其他节点当前轮的增益。这样就不必重新评估其他节点当前轮的增益,从而极大节省了计算开销。实验结果显示,在某些数据集上CELF算法的运行效率可以达到传统Greedy算法的700倍。此外CELF算法能得到跟Greedy算法相同的解。
根据类似思路,Goyal等进一步给出了CELF算法的改进版本,CELF++算法。该算法的基本思想是,在计算节点u为当前种子节点集合S带来的目标函数增益时,同时计算u为种子集合S∪{v}带来的目标函数增益,其中v为本轮迭代中到目前为止能带来最大增益的候选节点。由于这两个增益能够在同一次蒙特卡洛仿真中计算,因而算法效率得到提高。与CELF算法相比,CELF++算法速度提高了约30%~50%。
虽然基于Sumodularity的改进算法与原来的Greedy算法相比,效率已有了很大提高。然而,这类算法仍需要多次对整个网络运行蒙特卡洛仿真来计算目标函数值,限制了这些算法在大规模网络上的应用。
(2)基于节点中心性度量指标的算法
为选取k个种子节点,一种朴素的思想是直接根据节点的某些中心性度量指标(如节点度、中心性等),选择指标最高的k个节点。然而,以节点度为例,实验结果表明,选择度值最大的k个节点,得到的结果往往不准确。为提高准确性,人们研究并提出了一些新的度量指标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611085292.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:住院护士工作站管理系统
- 下一篇:一种超高速离心式空气压缩机高空特性分析方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用