[发明专利]一种基于卷积神经网络的用户属性推断方法和装置有效
| 申请号: | 201810124041.X | 申请日: | 2018-02-07 |
| 公开(公告)号: | CN108492200B | 公开(公告)日: | 2022-06-17 |
| 发明(设计)人: | 曹亚男;李晓雪;尚燕敏;刘燕兵;谭建龙;郭莉 | 申请(专利权)人: | 中国科学院信息工程研究所 |
| 主分类号: | G06Q50/00 | 分类号: | G06Q50/00;G06F16/9535;G06N3/04 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
| 地址: | 100093 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 卷积 神经网络 用户 属性 推断 方法 装置 | ||
1.一种基于卷积神经网络的用户属性推断方法,其特征在于,包括以下步骤:
1)根据用户节点的属性和好友关系,建立自中心网络;
2)采用卷积神经网络提取所述自中心网络中用户节点的属性信息和好友关系中所包含的隐藏信息,利用所述隐藏信息推断出用户的缺失属性;
所述自中心网络采用五元组G′={V′,E′,A′,B′,L}来表示,其中V′包含自中心网络中节点信息,集合E′包含自中心网络中所有节点间的链接关系,集合A′和B′分别表示节点的属性信息和行为信息,矩阵L∈V′×N包含自中心节点和它的好友的属性信息和行为信息,N是属性和行为数据维度的总和;
步骤1)首先对用户在网络上的属性信息进行过滤,然后再建立所述自中心网络;所述过滤包括:
a)过滤掉除年龄之外其他属性的所有非汉字的词组;
b)过滤掉属性信息缺失超过设定的阈值的节点;
所述卷积神经网络包括输入层、投影层、卷积层、池化层、全连接层和输出层,所述投影层将用户的属性信息和行为信息转化为向量;
所述投影层将用户的属性信息和行为信息转化为向量,对属于同一职业或专业的词语采用以下规则:
i.创建hash表,以专业或职业的首字作为关键字,将所有以该字为首字的属性组成集合作为value;然后根据jara-winkler距离计算其他属性值与专业和职业词典中词语的相似性,并将相似度高的属性加入到集合value;
ii.针对那些不在集合value中出现的属性值,运用word2vec训练出词向量,通过计算词向量间的距离,将相似性高的向量通过KNN算法聚合在一起,并与词典中的词语通过ID号进行关联,从而得到数字化向量;
所述卷积层采用训练好的权重矩阵和偏置与经过投影层后得到的特征矩阵做映射,并采用Relu作为激活函数;所述池化层采用最大值池化来保留局部特征中最重要的信息;所述输出层采用softmax分类器利用权重矩阵和偏置的值为属性可能的取值进行打分,得分最高的属性值即为标记用户的缺失属性值。
2.根据权利要求1所述的方法,其特征在于,针对好友关系无法直接获取或获取难度较大的社交网络,采用神经网络仅利用用户的属性信息对缺失的属性进行分类预测。
3.根据权利要求2所述的方法,其特征在于,所述神经网络包括输入层、投影层、隐藏层和输出层;所述投影层将用户的属性信息和行为信息转化为向量;所述隐藏层是两个全连接层,第一个隐藏层含有n*n个神经元,n是用户的属性和行为数据的维度之和,第二个隐藏层丢掉一部分神经元以防止过拟合;所述输出层采用softmax分类器利用权重矩阵和偏置的值为属性可能的取值进行打分,得分最高的属性值即为标记用户的缺失属性值。
4.一种采用权利要求1所述方法的基于卷积神经网络的用户属性推断装置,其特征在于,包括:
自中心网络构建模块,负责根据用户节点的属性和好友关系,建立自中心网络;
用户属性推断模块,负责采用卷积神经网络提取所述自中心网络中用户节点的属性信息和好友关系中所包含的隐藏信息,利用所述隐藏信息推断出用户的缺失属性。
5.根据权利要求4所述的装置,其特征在于,针对好友关系无法直接获取或获取难度较大的社交网络,所述用户属性推断模块采用神经网络仅利用用户的属性信息对缺失的属性进行分类预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810124041.X/1.html,转载请声明来源钻瓜专利网。





