[发明专利]一种基于用户情绪分布的在线社交距离估计方法在审
申请号: | 201811282747.5 | 申请日: | 2018-10-31 |
公开(公告)号: | CN109410082A | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 赵吉昌;杨阳;范锐 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06Q50/00 | 分类号: | G06Q50/00;G06K9/62 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 社交距离 用户情绪 估计模型 用户距离 不均衡 训练集 构建 结构信息缺失 网络结构信息 抽样信息 复杂计算 距离分布 社交网络 时间成本 统计学习 网络结构 用户社交 有效识别 采样 情绪 加权 推断 抽取 样本 场景 投票 应用 | ||
1.一种基于用户情绪分布的在线社交距离估计方法,具体包括以下步骤:步骤1,收集用户情绪信息;步骤2,统计社交网络中不同距离的分布;步骤3,从社交网络中按比例抽取不同的用户距离样本;步骤4,利用抽取的样本进行用户社交距离估计模型的训练,并在训练过程中解决不同距离样本的不均衡性;步骤5,利用得到的估计模型,估计任意社交网络中任意用户对之间的在线社交距离。
2.根据权利要求1所述的方法,其特征在于,对任意两用户a,b,如果存在关注关系的,则所述在线社交距离为1;对任意两用户a和b,不存在关注关系的,但存在另一用户c,有a和c的在线社交距离为1,b和c的在线社交距离为1,则a和c在线社交距离为2;对任意两用户a,b,不存在关注关系,且存在另两用户c、d,使得a到c的在线社交距离、d到c的在线社交距离、b到d的在线社交距离均为1,则a和d的在线社交距离为3。
3.根据权利要求1所述的方法,其特征在于,所述用户情绪信息包含以下情绪指数:中性、愤怒、高兴、低落、厌恶,所述情绪指数的取值范围为0—1,数值越大表示对于该用户相对于其他情绪这类情绪越强烈,所述情绪指数基于用户的相关信息计算得出,所述相关信息包括社交媒体的文本列表或收藏列表,对任意用户,各类情绪指数总和为1。
4.根据权利要求1所述的方法,其特征在于,所述统计社交网络中不同距离的分布基于真实社交网络用户社交距离分布,具体实现为:
步骤4a,随机选取若干用户,具体数量根据训练集网络中的用户总数确定,计算这些用户和其他用户的距离,并得到不同距离的数量分布。
步骤4b,在整个训练集网络中,利用广度优先搜索方法,获得用户距离信息,直至所有距离的样本的数量达到采样需要的数量。
步骤4c,按照不同用户距离的数量分布比例,从获得的样本中等比例随机抽取得到训练数据,并由之构建训练集。
5.根据权利要求1所述的方法,其特征在于,所述用户社交距离估计模型的训练,具体实现为:
步骤5a,将四类样本重组并划分为距离相邻、数量相近的两类,对距离为1、2、3、4的四类,将1、2视作一类,3、4视作一类,微调两类的样本数量,使之比例为1:1。
步骤5b,构造随机森林分类器用于区分新构造的两类,并利用两类样本进行模型训练,样本输入格式为:(用户1情绪信息,用户2情绪信息,用户1和2之间的距离),记做(e11,e12,e13,e14,e15,e21,e22,e23,e24,e25,y),以实现社交距离的初步分类。
步骤5c,分别构造两个类别各自的结合EUS技术的随机森林分类器,利用两类各自的样本进行训练。
6.根据权利要求5所述的方法,所述随机森林分类器具体实现步骤如下:
用N来表示样本数目,M表示特征数目,确定输入单个子分类器的特征数目m,使m远小于M,从样本中重采样选择N个样本,利用这N个样本的m个特征作为训练数据建立决策树,所述决策树使用CART决策树,重复以上步骤p次,得到p个决策树,使用投票法决定最终分类结果,所述CART决策树的特征选择标准是基尼系数,所述基尼系数用于表示单个决策树的节点分支后得到的两类的纯度,其计算公式为:
其中,D表示训练集在该分支的样本集合,c表示该集合中类的数量,pi表示在该样本集合中第i类出现的概率,所述基尼系数的取值范围是0—1,数值越小,表示集合样本越纯,当基尼系数为0时,集合D中只包含一类样本,如果分支选择属性A作为划分标准,则分支后的数据集的基尼系数计算为:
其中k为分支节点的数目。在随机森林算法中,选择划分属性A时,要考虑使之基尼系数增益最大,基尼系数增益的计算公式为:
ΔGini(A)=Gini(D)-GiniA(D),所述N,M,m,p,i,j,k均为正整数。
7.根据权利要求5所述的方法,其特征在于,所述结合EUS技术的随机森林分类器,其进行训练的具体实现为:
具体实现为:
步骤7a:计算样本的失衡率IR,这里假设正样本为数量较多的一类,负样为数量较少的一类
步骤7b:将数量较多的样本进行IR次无放回的重抽样,每次抽取n(负)个样本,与负样本组成平衡的一组样本,放入随机森林分类器中进行训练,进而生成IR个分类器。训练结束后,利用验证集对该分类器的准确率进行验证。若正确率>50%,则接受该分类器;否则,拒绝该分类器,并将抽取的正样本放回训练集,重新抽取样本进行训练。
步骤7c:利用投票法整合上述IR个分类器,每个分类器有不同的权重,具体权重由上述验证集的准确率确定。对于第i个分类器,权重为:其中,εi为第i个分类器在验证集上的准确率,得到最终分类器,所述IR,i均为正整数,所述n(负)为负样本的个数,n(正)为正样本的个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811282747.5/1.html,转载请声明来源钻瓜专利网。