[发明专利]一种互联网用户数据处理方法、装置及系统在审
申请号: | 201610221352.9 | 申请日: | 2016-04-11 |
公开(公告)号: | CN107025250A | 公开(公告)日: | 2017-08-08 |
发明(设计)人: | 李寿山;严倩;周国栋;李军辉 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06Q50/00 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 常亮 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 互联网 用户 数据处理 方法 装置 系统 | ||
技术领域
本申请涉及自然语言处理及社交网络领域,特别涉及一种互联网用户数据处理方法、装置及系统。
背景技术
近几年来,随着互联网的迅猛发展,社交网络产品越来越多,如微博、论坛和贴吧等。社交网络产品的出现使得互联网用户由被动地接受互联网信息向主动创造互联网信息转变,互联网用户既可以在社交网络产品上发表自己的言论,也可以评论其他用户发表的内容,使得社交网络产品既具有媒体传播特性,又具有社交网络特性。
目前,社交网络产品具备的媒体传播特性和社交网络特性,吸引了众多研究人员对社交网络产品上的用户数据进行分析研究。其中,对社交网络产品上的用户数据进行分析研究中,识别用户的婚姻类型是比较重要的,因为能够识别出互联网用户的婚姻类型将有利于社交网络产品企业制定精准的广告投放及进行相关分析,以此来帮助社交网络产品企业更好的开发社交网络产品。
但是,目前尚不存在一种行之有效的方法来识别出互联网用户的婚姻类型。
发明内容
为解决上述技术问题,本申请实施例提供一种互联网用户数据处理方法、装置及系统,以达到实现对互联网用户的婚姻类型的识别的目的,技术方案如下:
一种互联网用户数据处理方法,包括:
分别对待测样本中的各个语句进行分词,得到多个词特征,其中,所述待测样本为互联网用户发表的内容;
使用最大熵分类器,计算每个词特征在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率,所述最大熵分类器为使用发言者为已婚的正类样本和发言者为未婚的负类样本训练而成的;
将各个词特征对应的待分类正预测子条件概率进行乘运算,得到待分类正预测条件概率,将各个词特征对应的待分类负预测子条件概率进行乘运算,得到待分类负预测条件概率;
比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小;
在比较结果为所述待分类正预测条件概率最大的情况下,确定所述待测样本的类别为正;
在比较结果为所述待分类负预测条件概率最大的情况下,确定所述待测样本的类别为负;
在所述待测样本的类别为正时,确定所述待测样本的发言者的婚姻类型为已婚;
在所述待测样本的类别为负时,确定所述待测样本的发言者的婚姻类型为未婚。
优选的,所述使用最大熵分类器,计算每个词特征在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率的过程,包括:
使用最大熵目标函数公式分别计算每个词特征在a分别为+1和-1时,对应的待分类正预测子条件概率和待分类负预测子条件概率,其中,该a为待测样本预设类别,该b为词特征,Pλ(a|b)为待分类预测子条件概率,exp()为自然数e为底的指数函数,fi()为二值特征函数,所述λi为特征函数值fi(a,b)在a为+1时的正最优权值或在a为-1时的负最优权值且相同b对应的不同特征函数值的权值相同, 为对每个词特征对应的k个特征函数值进行求和的函数,k等于2,i=1,2,…,k,为对a为不同值时对应的数据进行求和的函数;
其中,所述a为+1表示所述待测样本预设为正类,所述a为-1表示所述待测样本预设为负类,每个词特征对应的各个特征函数值分别对应所述待测样本的预设类型正和负,在计算待分类正预测子条件概率时,若词特征包含在预设词特征集合中,则λ为该词特征对应的正最优权值,否则λ为0,在计算待分类负预测子条件概率时,若词特征包含在所述预设词特征集合中,则λ为该词特征对应的负最优权值,否则λ为0。
优选的,所述最大熵分类器的训练过程包括:
获取多个不同的正类样本和多个不同的负类样本;
分别对各个所述正类样本中的各个语句和各个所述负类样本中的各个语句进行分词,得到多个训练词特征;
依据公式分别计算每个训练词特征在a分别为+1和-1时,对应的正预测条件概率和负预测条件概率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610221352.9/2.html,转载请声明来源钻瓜专利网。