[发明专利]一种融合网络结构和文本信息的社交关系预测方法有效

专利信息
申请号: 201711143539.2 申请日: 2017-11-17
公开(公告)号: CN107729569B 公开(公告)日: 2020-01-17
发明(设计)人: 张子柯;许帅帅;尤志强;周鸽;刘闯 申请(专利权)人: 杭州师范大学
主分类号: G06F16/35 分类号: G06F16/35;G06Q10/04;G06Q50/00
代理公司: 33201 杭州天正专利事务所有限公司 代理人: 王兵;黄美娟
地址: 311121 浙江省杭州*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融合 网络 结构 文本 信息 社交 关系 预测 方法
【权利要求书】:

1.一种融合网络结构和文本信息的社交关系预测方法,包括如下步骤:

步骤1,构造原始兴趣向量;

使用微博和推特数据集中的用户关注关系和用户的文本信息内容,首先使用开源分词工具Ik Analyzer对数据集中的所有文本信息,即所有用户发表的微博内容或者推文内容,进行关键词的提取;这样可以得到用来刻画每一个用户的一系列关键词;然后将分词工具得到的所有的词语使用word2vec开源工具进行聚类,设置聚类个数为N,即将这些词划分为N个类别,这样就得到了N个话题类别,那么对于每一个用户来说,现在可以得到一个维度是N的兴趣向量,该向量的具体计算方法如下:针对一个用户i,构建一个长度为N维且每一个维度取值都为0的初始兴趣向量,然后依次扫描属于用户i的所有的关键词,若某个关键词属于第j个话题类别,那么用户i的特征向量中的第j个维度的值加1;直到扫描完所有属于该用户的关键词,就可以得到该用户i的兴趣向量;在该兴趣向量中,得分越高的维度说明该用户对于该维度的话题有更多的关注度和兴趣,使用Ti来表示第i个用户的兴趣向量,其分量具体的计算公式如下:

其中tij表示第i个用户在第j个话题上的得分,Freqij表示第i个用户的所有关键词出现在第j个话题上的数量,表示第i个用户在所有的关键词出现在所有的话题上的数量,为归一化项;

步骤2,构造修正兴趣向量;

使用用户的关注者的兴趣向量修正用户本身的原始兴趣向量;具体方法如下:针对一个特定的目标用户u1,该目标用户u1所有关注的用户是u2和u3,并且只关心用户兴趣向量中取值最大的top-K个维度,那么可以得到目标用户u1的兴趣向量Tu1=(t11,t12,…,t1K),用户u2的兴趣向量为Tu2=(t21,t22,…,t2K),以及用户u3的兴趣向量为Tu3=(t31,t32,…,t3K),那么目标用户u1的兴趣向量的修正的方法为将t11,t12,…,t1K,t21,t22,…,t2K,t31,t32,…,t3K中相同的维度上的值相加,不同的维度上的值全部保留而得到的结果;通过这样的方法可以得到用户的修正兴趣向量;

步骤3,重构用户兴趣向量;

在得到了目标用户的修正兴趣向量之后,需要对目标用户和潜在的目标用户的关注用户的兴趣向量进行重构,目标用户u1的修正兴趣向量为Tu1=(t11,t12,…,t1n),其中的n的取值小于等于原始兴趣向量的维度N并且大于等于在修正兴趣向量模块中取top-K个维度中选取的K值;目标用户u1的潜在关注用户u5的原始兴趣向量为Tu5=(t51,t52,…,t5N);首先如在修正兴趣向量模块中所述,抽取该用户的top-K,这里K取值为4,即值最大的前4个维度组成新的兴趣向量,Tu5=(t51,t52,…,t5K);然后考虑u1的修正兴趣向量和u5的Top-4兴趣向量的维度的并集,即,(t11,t12,…,t1n)∪(t51,t52,…,t5K);并按照并集的结果重新分别构造u1和u5的兴趣向量,若某一个用户没有某一个维度上的特征,则使用0补齐,这样就得到了目标用户和目标用户的潜在关注用户的重构的兴趣向量;

步骤4,预测社会关系;

对于给定的目标用户ui和ui的潜在关注用户uj,定义关注uj并且同时是ui的关注者为ui到uj的桥接点;将微博数据集和推特数据集随机的划分为两个部分,分别用作训练集和测试集;训练集中包括已知连边的90%;这样,对于测试集中的任一条边Eij,通过构建该边Eij所连接的两个用户的修正兴趣向量和识别这两个用户之间的桥节点,即综合考虑通过修正兴趣向量对文本信息的利用和桥节点对网络结构的利用,得到如下的用于计算用户ui关注用户uj的概率计算公式,也就是边Eij存在的概率:

其中,Sif表示用户ui关注的所有对象;任何一个属于Sif的用户k,如果该用户k也关注了用户j,那么Ikj=1;否则Ikj=0;是值为0或者1的二元向量,该向量中每个维度上的值由向量A决定,如果向量A在该维度上的权值为正,那么在这个维度上的值为1;否则为0;所以表示用户ui和用户uj的兴趣点重叠的个数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州师范大学,未经杭州师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711143539.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top