[发明专利]一种基于多模态特征交互深度融合推荐方法有效
申请号: | 202010872372.9 | 申请日: | 2020-08-26 |
公开(公告)号: | CN111949884B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 罗笑南;宋秀来;钟艳如;甘才军;曹良斌;蓝如师;李一媛 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06K9/62;G06N3/04 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 杨雪梅 |
地址: | 541004 广*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态 特征 交互 深度 融合 推荐 方法 | ||
1.一种基于多模态特征交互深度融合推荐方法,其特征在于,包括如下步骤:
1)从用户行为日志中提取用户和项的行为数据,并将相关属性数据进行提取,组成可用的数据集;
2)将步骤1)得到的数据集,进行预处理,得到相关有用的数据集,分析数据集的分布,得出数据集的规律;
3)根据步骤2)探索到数据分布和规律,对各个模态的数据类型进行特征提取,做特征工程,包括进行用户行为特征提取、文本特征提取、音频特征提取和视频特征提取;并对提取的不同模态特征融合,进行多模态特征融合,进行交互探索高阶特征,用XGBbosst算法选出有效的特征数据;
4)根据步骤3)得到基础特征和高阶特征数据,将数据集划分为训练集、验证集和测试集,将提取的特征数据输入到融合模型中,采用训练集和验证集验证模型效果,选出效果最好的融合模型;
5)根据步骤4)选定的最佳融合模型,将测试集数据输入到模型中,得到用户对项目的点击率,根据点击率进行分类,将分类好的数据推荐给相应的用户;
步骤4)中,所述的融合模型,设计方法如下:
4-1)采用一个修改后的xDeepFM模型,该模型可以接受多模态特征作为输入;
4-2)指定如何整合所有修改后的模型以形成融合模型;
4-3)基于xDeepFM模型,添加用于提取标题、音频和视频功能的模块,先将稀疏用户交互数据转换为稀疏特征,然后将密集用户交互数据转换为密集特征;
4-4)将标题数据转换为序列特征,使用嵌入层来减小这些特征的维数并获得嵌入的特征向量,嵌入层的结果为宽的级联向量,表示如下:
e=[e1,e2,...,em]
其中em是级联向量值;
4-5)步骤4-4)获得的特征向量馈入三个模块:线性层,压缩交互网络CIN层和普通深度神经网络DNN层;CIN层的输入来自Embedding层,假设有m个field,每个field的embeddingvector维度为D,则输入表示为矩阵X0∈Rm*D,令表示第k层的输出,其中Hk表示第k层的向量个数,向量的维度始终为D,保持和输入层一致,具体计算方式如下:
其中Xkh,*表示第k层的输出,1≤h≤Hk,表示第k层的第h个向量的权值矩阵,表示第k-1层特征向量第i个的特征值,是第0层特征向量第j个的特征值,o表示Hadamard乘积;
4-6)对于视频和音频数据,首先使用主成分分析PCA提取原始特征的主成分并减小特征尺寸;
4-7)白化模型来减少特征之间的相关性,然后使用嵌入层获取音频和视频特征的嵌入特征向量;最后将嵌入的音频特征向量和视频特征向量馈入两个不同的纯DNN层中,以进行进一步的特征提取,白化模型的输出是:
其中A是白化模型的输出,σ是sigmoid函数,是线性层的权值,是dnn层的权值,是cin层的权值,a是原始特征,和p分别是dnn层特征输出和cin层输出,b为可学习的参数。
2.根据权利要求1所述的一种基于多模态特征交互深度融合推荐方法,其特征在于,所述的多模态特征融合,是将基本数据、文本数据、视频数据和音频数据类型进行处理并将其融合得到可输入到模型中的数据,在数据类型中,基本数据包括用户的年龄、城所在市;文件数据包括视频的标题、描述;视频数据包括是否有人脸数据;音频数据包括该视频的背景音乐。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010872372.9/1.html,转载请声明来源钻瓜专利网。