[发明专利]一种网络社区用户识别方法、装置和可读存储介质有效
申请号: | 201811544400.3 | 申请日: | 2018-12-17 |
公开(公告)号: | CN109783805B | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 吴旭;许晋;颉夏青;戴雨伦 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/289;G06Q50/00;G06N3/04;G06N3/08 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 刘广达 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 社区 用户 识别 方法 装置 可读 存储 介质 | ||
1.一种网络社区用户识别方法,其特征在于,包括:
提取预先收集的网络社区文本数据的第一N-gram特征并生成第一词向量;
以交叉熵为代价函数,采用深度神经网络对所述第一词向量进行训练,得到文本内容分析模型;
使用所述文本内容分析模型分析待识别用户的文本数据,得到内容属性;
使用预设行为分析模型分析所述待识别用户的行为数据,得到行为属性;
根据所述内容属性和所述行为属性识别所述待识别用户。
2.根据权利要求1所述的方法,其特征在于,所述提取预先收集的网络社区文本数据的第一N-gram特征并生成第一词向量,包括:
对预先收集的网络社区文本数据进行分词;
在分词结果中提取第一N-gram特征;
生成所述第一N-gram特征对应的第一词向量;
对所述第一词向量进行one-hot编码,得到one-hot形式的第一词向量。
3.根据权利要求1所述的方法,其特征在于,所述以交叉熵为代价函数,采用深度神经网络对所述第一词向量进行训练,得到文本内容分析模型,包括:
将所述one-hot形式的第一词向量输入至深度神经网络,构建第一向量矩阵;
对所述第一词向量矩阵进行预设运算,形成第二词向量矩阵;
根据预设的分类类别,以交叉熵为代价函数,采用反向传播、梯度下降的形式迭代更新所述第一向量矩阵和第二向量矩阵,得到多分类的文本内容分析模型。
4.根据权利要求1所述的方法,其特征在于,所述使用所述文本内容分析模型分析待识别用户的文本数据,得到内容属性,包括:
提取待识别用户的文本数据的第二N-gram特征并生成第二词向量;
使用所述文本内容分析模型对所述第二词向量进行分析,得到所述待识别用户的文本数据在各类别上的内容属性。
5.根据权利要求1所述的方法,其特征在,所述使用预设行为分析模型分析所述待识别用户的行为数据,得到行为属性,包括:
采用EM迭代算法计算所述内容属性与所述待识别用户的行为数据的近似分布,并将各近似分布作为所述待识别用户的行为属性。
6.根据权利要求5所述的方法,其特征在于,所述采用EM迭代算法计算所述内容属性与所述待识别用户的行为数据的近似分布,包括:
假设所述待识别用户属于所述分类类别中的某个类别,读取该类别对应的内容属性,将读取的内容属性与所述行为数据作为数据集合,并设定所述数据集合的联合概率密度由估计参数所确定,交替执行E步和M步;
E步:根据第t次迭代后的估计参数,计算所述数据集合的对数似然函数的期望;
M步:最大化所述数据集合的对数似然函数的期望得到新的估计参数;
当得到所述数据集合的最大对数似然函数的期望时,迭代结束,并将迭代得到的各估计参数作为待识别用户的行为属性。
7.根据权利要求1所述的方法,其特征在于,所述根据所述内容属性和所述行为属性识别所述待识别用户,包括:
对所述待识别用户的文本数据在各类别上的内容属性、所述读取的内容属性、所述待识别用户在所述该类别上的各行为属性、所述数据集合的最大对数似然函数的期望对应的行为属性进行标准化处理,得到处理结果;
根据所述处理结果,确定所述待识别用户是否属于所述该类别。
8.根据权利要求7所述的方法,其特征在于,所述根据所述处理结果,确定所述待识别用户是否属于所述该类别,包括:
当所述处理结果大于所述该类别的标准阈值时,判定所述待识别用户属于该类别;否则判定待识别用户不属于该类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811544400.3/1.html,转载请声明来源钻瓜专利网。