[发明专利]一种基于复杂网络特性及神经网络聚类挖掘用户兴趣的方法有效

专利信息
申请号: 201610056077.X 申请日: 2016-01-27
公开(公告)号: CN105740381B 公开(公告)日: 2019-05-17
发明(设计)人: 张兴兰;刘炀 申请(专利权)人: 北京工业大学
主分类号: G06F16/9535 分类号: G06F16/9535
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 沈波
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于复杂网络特性及神经网络聚类挖掘用户兴趣的方法,主要从以下三方面进行设计,1)构建复杂网络模型,2)确定节点重要性指标,3)神经网络聚类;本方法将复杂网络模型应用到用户软件兴趣的挖掘中,建立用户使用软件的复杂网络,并使用节点的度、聚集系数、节点介数和节点的概率特性指标确定节点的重要性排序,形成用户兴趣集,再利用神经网络模型挖掘兴趣集的聚类,确定用户最终兴趣集,为挖掘用户兴趣模型提供了一种新的方法,并且将用户软件兴趣的挖掘精确性大幅提高,同时这种方法可以对用户的多种兴趣进行挖掘。
搜索关键词: 一种 基于 复杂 网络 特性 神经网络 挖掘 用户 兴趣 方法
【主权项】:
1.一种基于复杂网络特性及神经网络聚类挖掘用户兴趣的方法,本方法将复杂网络模型应用到用户软件兴趣的挖掘中,建立用户使用软件的复杂网络,并使用节点的度、聚集系数、节点介数和节点的概率特性指标确定节点的重要性排序,形成用户兴趣集,再利用神经网络模型挖掘兴趣集的聚类,确定用户最终兴趣集,为挖掘用户兴趣模型提供了一种新的方法,并且将用户软件兴趣的挖掘精确性大幅提高,同时这种方法可以对用户的多种兴趣进行挖掘;其特征在于:该方法主要从以下三方面进行设计;1)构建复杂网络模型;用户使用软件的先后顺序具有一定的相关性,如用户先使用Windows照片查看器,然后使用Photoshop,接着使用PowerPoint,这些软件体现了用户使用图片形成文档的过程,在所有软件的使用序列中形成小世界效应,所以按照软件使用的顺序,使得共同出现在一个窗口内的软件形成共现关系,构建复杂网络拓扑结构;利用PageRank的思想,以节点之间的连接度作为边的权重;2)确定节点重要性指标;针对节点重要性排序的指标特性的计算方法,形成用户兴趣社区;其中,节点的度表示该节点的邻居数,有大量邻居数的节点具有更大的影响力和号召力;3)神经网络聚类;利用CBOW和Skip‑gram模型对用户兴趣社区中的软件依据上下文序列中的关联形成软件词向量,并利用向量的距离进行聚类,合并聚类,确定最终的用户兴趣软件集;第一、构建复杂网络模型用户在同一个开关机会话中使用软件的先后顺序具有很强的相关性;换言之,相邻软件都是相关联的,所以采用K近邻的共现情况构成复杂网络中的边集,而研究发现K=2时节点之间的联系最强,此时具有明显的小世界特性;复杂网络G=(V,E)是由|V|=N个节点和|E|=M条边连接所组成的一个有向网络,其中,V为复杂网络G的节点集,由用户软件行为日志中的候选软件组成,且In(vi)={vj|<vj,vi>∈E},Out(vi)={vj|<vi,vj>∈E}E为G的边集,由软件的共现关系形成且对于vi+1∈V,如果vi,vi+1符合K近邻的共现情况,则有<vi,vi+1>∈E,边的权重可写成weight(vi,vj)=Ti*strength(vi,vj)           (2)其中,strength(vi,vj)表示节点vi,vj之间的连接强度,|posi‑posj|表示节点vi,vj在共现窗口内的距离,weight(vi,vj)表示边<vi,vj>的权重,Ti表示软件节点vi的使用时长;i,j为整数且0≤i<N,i≠j;第二、节点重要性统计特性在本方法的用户软件行为日志中,用户使用软件的时长能够反映软件的重要性,只需要将复杂网络中节点的重要性对其进行修正即可;根据传播动力学的知识衡量网络中节点的重要性,将网络中的节点作为传播源,通过计算目标节点的传播范围来衡量节点在传播过程中的影响力以及号召力;在一个网络中,节点删除前后网络图联通性的变化能够充分说明该节点是否有足够的能力破坏网络,体现了节点的重要性;所以综合考虑复杂网络特性、实用性以及行为数据本身的特性,选取节点聚集系数、节点介数和节点度数作为评价节点重要性的指标特性;1)节点聚集系数节点vi的聚集系数是与该节点相邻的结点之间的连接数和它们之间所有可能存在的连接数的比值,表示了所有相邻结点形成一个小团簇的紧密程度;节点的聚集系数写成其中,ki表示与节点vi相邻的节点个数,这些邻接点之间可能存在ki(ki‑1)条边,|ejk|表示vi邻接点之间实际存在的边数且ejk∈E;2)节点介数节点Vi的介数是任意两个节点的最短路径中经过节点vi的路径数与最短路径的总数形成的比值,反映该节点在网络中的影响力;计算公式写成其中,nd(ij)表示vi和vj之间最短路径的数目,nd(ijk)表示vi和vj经过vk的最短路径的数目;3)节点度数节点的度数表示与该节点相连接的边的个数,度的大小直接反映了该节点对于复杂网络中其他节点的影响力,计算公式写成gi=clu(vi)+bet(vi)+gre(vi)                (8)其中,gi表示复杂网络G中节点vi的重要性系数的综合值,clu(vi)为节点vi的聚集系数,bet(vi)为节点vi的介数,gre(vi)为节点vi的度,Ti表示节点vi的使用时长,β是指标调参,取值0.6;综上所述,公式(7)是综合软件的时长特性和节点在复杂网络中的重要性的综合性指标,是多个判定指标标准化处理后再合并的结果,成为评判软件重要性的综合指标;第三、神经网络聚类CBOW和Skip‑gram模型是基于问答模式的,一个问题出现某种答案的现象,也能够表示成一个问题与某种答案形成共现关系的情况;所以本方法使用word2vec工具融合CBOW模型和Skip‑gram模型,将软件看成词项,基于前期工作中网络拓扑结构中的共现关系、日志中软件的使用顺序构成的序列上下文形式,计算各个软件的向量,然后根据向量余弦距离计算软件相似性,在本方法中取距离最近的软件形成聚类;其中,余弦距离公式可写成,其中,表示节点vi的向量,表示节点vj的向量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610056077.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top