[发明专利]一种基于用户背景的社区问答网站标签推荐方法在审
| 申请号: | 201910445656.7 | 申请日: | 2019-05-27 |
| 公开(公告)号: | CN110188272A | 公开(公告)日: | 2019-08-30 |
| 发明(设计)人: | 吕建;徐锋;姚远;张素威 | 申请(专利权)人: | 南京大学 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
| 代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
| 地址: | 210046 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 标签推荐 用户背景 用户背景信息 文本特征 建模 网站 神经网络模型 循环神经网络 注意力机制 动态建模 静态建模 问题建模 问题文本 影响动态 用户历史 真实数据 综合考虑 关联性 预测 社区 匹配 个性化 融合 分类 提问 记录 学习 | ||
1.一种基于用户背景的社区问答网站标签推荐方法,其特征在于,包括数据准备、模型训练和标签推荐三个阶段;数据准备阶段用于统计数据集中各用户的提问记录,并随机采样一定数量的提问记录作为用户背景信息建模的依据;训练阶段通过从数据集中已有的提问记录的问题文本和对应标签中学习模型参数,确定模型;标签推荐阶段由已建立模型接受新的问题文本和对应的用户编号作为输入,输出候选的标签列表;
训练阶段确定的模型包括四个模块:输入、内容建模模块、用户背景影响建模模块以及预测输出;模型的输入包括当前待推荐问题文本和用户id;内容建模模块根据问题文本提取文本特征;用户背景影响建模模块建模用户背景信息对当前推荐的影响,并得到一个量化的影响向量;预测输出模块结合内容建模模块和用户背景影响建模模块的输出给出候选标签。
2.如权利要求1所述的基于用户背景的社区问答网站标签推荐方法,其特征在于,进行数据准备阶段时,首先进行预处理,将问题文本信息处理为单词序号列表的形式;
在预处理完成后,开始数据准备阶段;数据准备阶段的操作包括整理各用户的历史提问记录,对于每个用户从历史提问记录中随机采样出一部分,从数据集中删除被采样的部分;假设数据集中用户u的历史提问记录为集合Hu,从历史提问记录中随机采样一部分保存,记为保存的内容包括被采样的问题文本及问题对应的标签集由于已被采样的样本不参与训练,则对于每一个用户,训练步骤实际使用的数据集为
3.如权利要求1所述的基于用户背景的社区问答网站标签推荐方法,其特征在于,内容建模模块接受经过预处理的文本序列,能够提取出文本内容的高层语义特征;该模块基于长短程记忆单元网络和注意力机制;
在数据预处理阶段,已经将文本内容处理为词汇序号序列;进一步将单词表示为嵌入向量,则每一段输入文本表示为:
Q=[x1,x2,...,xN]
其中,xi∈Rd,N为文本序列的最大长度;接下来使用LSTM提取文本内容的语义特征,LSTM指的是长短程记忆单元网络;经过LSTM处理初步得到文本的语义特征:
q′=[h1,h2,...,hN]
为了进一步提升文本语义特征的准确性,引入注意力机制;注意力机制接受经过初步处理的文本语义信息作为输入,输出文本总体表征;使用注意力机制提取高层语义特征的过程表示为:
H=tanh(Whq′)
a=softmax(WHH+bH)
其中,q∈Rd;参数矩阵Wh,WH以及偏置参数bH都是可训练的;
可知对于每一个输入文本序列,内容建模模块都会输出一个相应的文本语义的总体表征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910445656.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:搜索方法以及装置
- 下一篇:资讯内容的通知方法、装置、服务器及可读介质





