[发明专利]基于主题模型和机器学习的回答者推荐方法有效
申请号: | 201710733139.0 | 申请日: | 2017-08-24 |
公开(公告)号: | CN107562836B | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 张莉;王丽婷;蒋竞;黎功辉 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06N20/00 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 祗志洁 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主题 模型 机器 学习 回答者 推荐 方法 | ||
1.一种基于主题模型和机器学习的回答者推荐方法,其特征在于,包括如下两方面:
(一)基于扩展隐含的狄利克雷主题模型构建回答者推荐模型,所述回答者推荐模型包括三部分:用户的专业知识、用户的主题和用户的活跃度;包括如下步骤:
步骤1,从问答社区中获取历史数据,得到每个用户在各个时间段内的问答记录,问答记录内容包括提问信息、回答信息和评论信息,对问答记录内容清理后获得主题模型训练的语料库,根据语料库训练得到主题模型和问题标签特征;并利用回答者获得的投票数作为回答者的专业知识水平,利用用户访问问答社区的记录计算用户的活跃度;
用户的活跃度s根据下面公式计算得到:
其中,Activeness表示用户操作的活跃度计算函数,M表示用户在提问日期D之前参与问答社区的三个月之内的操作集合;n为集合M中操作的次数;Di代表集合M中第i个操作的创建日期;λ为时间衰减参数;
步骤2,基于主题模型计算用户主题分布、主题词项分布、用户主题专业知识分布和用户主题活跃度分布;其中,用户主题分布表示为θu,k,用户主题专业知识分布为φk,u,e,用户主题活跃度分布为δk,u,a,主题词项分布为小脚标中,u代表用户,k代表主题,e代表专业知识水平,a代表活跃度等级,w代表词项;
设主题数为K,根据狄利克雷先验分布的参数α,用户u的主题分布服从狄利克雷分布θu,k,如下:
表示用户u的主题k的概率;
设专业知识水平共有E个等级,根据狄利克雷先验分布的参数β,用户u在主题k下的专业知识服从狄利克雷分布φk,u,e,如下:
表示用户u在主题k下专业知识水平为e的概率;
设活跃度共A个等级,根据狄利克雷先验分布的参数ρ,在主题k下用户u的主题活跃度分布表示用户u在主题k下活跃度等级为a的概率;
步骤3,将为问题推荐回答者的问题转化为机器学习领域的分类问题,将步骤2所获得的概率分布转化为机器学习的特征向量,获得用户的主题特征、专业知识特征和活跃度特征;
用户的主题特征θu,q,根据用户的主题分布θu,k和问题主题的分布θq,k得到,表示为:
θu,q=θu,k×θq,k,k=1,2,…,K;
用户的专业知识特征φe,q,根据用户的专业知识分布φe,k和问题主题的分布θq,k得到,表示为:φe,q=φe,k×θq,k,k=1,2,...,K;其中,φe,k=max(φk,u,e)代表用户u最高的主题专业知识分布;
用户的活跃度特征δa,q,根据用户的活跃度分布δa,k和问题主题的分布θq,k得到,表示为:
δa,q=δa,k×θq,k,k=1,2,...,K;其中,δa,k=max(δk,u,a)代表用户u的最高的主题活跃度分布;
步骤4,将主题特征、专业知识特征、活跃度特征和问题标签特征转化为特征向量,作为机器学习的输入,通过机器学习得到回答者推荐模型;
(二)利用回答者推荐模型为提问者推荐回答者,包括:
步骤5,当问答社区中有提问者提出新的问题时,对该问题进行特征提取,获得问题主题的分布θq,k;
步骤6,利用回答者推荐模型获得问题回答者的推荐列表。
2.根据权利要求1所述的回答者推荐方法,其特征在于,所述的步骤2中,计算概率分布时,设置狄利克雷先验分布的参数α,β,ρ,利用Gibbs采样获取回答者推荐模型的后验分布,进而计算用户主题分布、用户主题专业知识分布和用户主题活跃度分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710733139.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一株戊糖片球菌及其应用
- 下一篇:一种基于道路网的机动目标跟踪算法