[发明专利]基于深度学习处理多源异构数据的推荐方法有效
| 申请号: | 201910547320.1 | 申请日: | 2019-06-24 |
| 公开(公告)号: | CN110263257B | 公开(公告)日: | 2021-08-17 |
| 发明(设计)人: | 冀振燕;宋晓军;赵颖斯;皮怀雨;李俊东 | 申请(专利权)人: | 北京交通大学 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06Q30/06;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京市诚辉律师事务所 11430 | 代理人: | 杨帅峰 |
| 地址: | 100044 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 学习 处理 多源异构 数据 推荐 方法 | ||
1.一种基于深度学习处理多源异构数据的推荐方法,该方法包含了如下步骤:
(1)文本特征提取:对评论文本进行预处理,得到用户的评论特征向量和物品的评论特征向量,其中使用PV-DBOW模型学习文本段落的特征向量表示;模型采用的是分布式的词袋模型,该模型使用一个段落向量来预测段落中随机采样得到的词语;
(2)评分特征提取:使用两层全连接的神经网络来学习用户对物品的评分,分别得到用户和物品的评分特征向量表示;
(3)用户与物品特征融合:根据(1)求得的评论文本特征,对于每位用户,将该用户发出的评论特征向量加权求和得到该用户特征,将物品收到的评论特征向量加权求和得到物品特征,最后使用融合函数将用户的文本和评分特征融合得到用户的融合特征,将物品的文本和评分特征融合得到物品的融合特征;
(4)基于贝叶斯个性化排序BPR的优化:基于社交网络采样得到带有用户偏好的三元组,根据贝叶斯理论优化得到最佳模型参数,其中,所述三元组是用户物品三元组,标记为(u,i,j),代表用户u对于物品i的偏好程度大于物品j;
(5)推荐:根据步骤(4)求得的模型参数,将用户的融合特征和物品的融合特征向量输入到模型中为用户推荐物品。
2.根据权利要求1所述的方法,对于所描述的(1)文本特征提取步骤,其中的对评论文本预处理使用duv来表示用户u对物品v的评论文本,评论文本包含的词语使用w来表示;通过用户对物品的评论文本学习到的用户和物品的特征向量使用u1和v1来表示,段落的特征向量使用duv来表示,词向量使用w来表示,所有评论的词语都储存在词库V中;这些特征向量的维度数都为K。
3.根据权利要求1所述的方法,对于所描述的(1)文本特征提取步骤,其中的词语采样对于每个段落,随机选取一个文本区域,从该区域中随机采样一些词语,作为训练分类器的结果;文本区域的大小和在该区域中选取词语的数目由人工设定。
4.根据权利要求2所述的方法,对于所描述的(1)文本特征提取步骤,通过最优化将每段评论都映射到一个随机的高维语义空间中,然后对段落中包含的词进行预测,通过学习优化,得到段落特征向量表示;根据词袋模型的假设,每个词w在文档duv中出现的概率使用softmax进行计算:
其中w′表示属于词库V的全部词语,exp表示以e为底的指数函数;通过此公式求得文档中任意词语出现的概率;在计算过程中采用负采样的方法,在未出现的词语中根据一个预定义的噪声分布来采样部分词语,作为负样本进行近似计算,而不是使用词库中所有的词语;基于负采样的策略,那么PV-DBOW的目标函数被定义为:
上式将所有的词语和文档的组合都进行了相加,其中是词w在文档duv中出现的次数,如果未出现则函数值为0;代表的是sigmoid函数,t为负样本的个数,表示的是在噪声分布PV中的期望。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学,未经北京交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910547320.1/1.html,转载请声明来源钻瓜专利网。





