[发明专利]模型训练方法、直播推荐方法、设备、存储介质有效
申请号: | 202110616226.4 | 申请日: | 2021-06-02 |
公开(公告)号: | CN113207010B | 公开(公告)日: | 2022-06-17 |
发明(设计)人: | 刘红岩;车尚锟;王潇 | 申请(专利权)人: | 清华大学 |
主分类号: | H04N21/2187 | 分类号: | H04N21/2187;H04N21/25;H04N21/258;H04N21/45;H04N21/466;G06N3/04;G06N3/08 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 霍莉莉;黄健 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 直播 推荐 设备 存储 介质 | ||
1.一种直播视频的个性化推荐模型的训练方法,其特征在于,包括:
获取预设的历史直播数据,并根据所述历史直播数据确定用户的用户属性信息,以及所述用户在预设时刻的用户实时状态;其中,所述用户实时状态用于表征所述用户在预设时刻的特征;
将所述用户的用户属性信息、用户实时状态输入到预先搭建的处理模型,得到所述用户的偏好识别结果,并根据所述用户的偏好识别结果确定所述用户在预设时刻的推荐列表;所述处理模型用于输出所述用户的偏好识别结果;根据所述历史直播数据,确定所述用户对所述推荐列表的反馈信息;
将所述反馈信息、所述用户的偏好识别结果、所述用户实时状态输入预先搭建的评判模型,所述评判模型用于根据预设的折现因子对所述反馈信息、所述用户的偏好识别结果、所述用户实时状态进行处理,得到输出总期望收益;所述总期望收益用于表征所述推荐列表的推荐效果;
其中,所述总期望收益的公式为:
其中,γ为折现因子,E表示求期望,s表示用户实时状态,a表示用户的偏好识别结果,w为总期望收益公式的参数,r表示用户的反馈,a′表示预设时刻前一时刻的用户偏好结果,s′表示预设时刻前一时刻的用户实时状态;
根据所述总期望收益确定强化学习目标损失函数;
根据所述历史直播数据确定用于作为正训练数据的第一主播信息,以及用于作为负训练数据的第二主播信息;
根据所述第一主播信息、所述第二主播信息构建有监督学习目标损失函数;
根据所述强化学习目标损失函数、所述有监督学习目标损失函数,调整所述处理模型;
其中,训练完毕的所述处理模型为用于进行直播视频个性化推荐的模型。
2.根据权利要求1所述的方法,其特征在于,根据所述历史直播数据确定所述用户在预设时刻的用户实时状态,包括:
利用预设的嵌入层,根据所述用户的标识对所述历史直播数据进行处理,确定所述用户的静态特征;
根据所述历史直播数据,确定所述用户在所述预设时刻之前的动态观看记录特征;
根据所述历史直播数据,确定所述用户的相似用户在所述预设时刻的实时观看记录特征;
对所述用户的静态特征、所述用户的动态观看记录特征、所述用户的实时观看记录特征进行拼接,得到所述用户的用户实时状态。
3.根据权利要求1所述的方法,其特征在于,所述根据所述用户的偏好识别结果确定所述用户在预设时刻的推荐列表,包括:
根据所述偏好识别结果、高斯随机变量,确定用户在预设时刻的当前偏好信息;
利用预设的嵌入层,根据各主播的标识对所述历史直播数据进行处理,确定各主播的各主播属性信息;
根据所述用户的当前偏好信息、各所述主播属性信息,确定所述用户与每一主播之间的匹配信息;
根据所述用户与每一主播之间的匹配信息,确定所述用户的推荐列表。
4.根据权利要求1所述的方法,其特征在于,还包括:
根据所述总期望收益、所述反馈信息、所述折现因子,构建所述评判模型的损失函数,并根据所述评判模型的损失函数调整所述评判模型。
5.一种直播视频的个性化推荐方法,其特征在于,包括:
获取历史直播数据和当前时刻的直播数据,并根据所述历史直播数据和当前时刻的直播数据确定用户的用户属性信息、所述用户在当前时刻的用户实时状态以及各主播的主播属性信息;
将所述用户实时状态、所述用户属性信息输入处理模型中,得到所述用户的实时偏好信息;
根据所述用户的实时偏好信息、各所述主播属性信息,确定所述用户的推荐列表;
将所述用户的推荐列表发送给与所述用户对应的用户终端;
其中,所述用户实时状态包括所述用户的静态特征、所述用户的动态观看记录特征,以及所述用户的实时观看记录特征;
其中,所述处理模型为基于权利要求1-4任一项所述的方法训练得到的。
6.一种电子设备,其特征在于,包括存储器和处理器;其中,
所述存储器,用于存储计算机程序;
所述处理器,用于读取所述存储器存储的计算机程序,并根据所述存储器中的计算机程序执行上述权利要求1-4或5任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述权利要求1-4或5任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110616226.4/1.html,转载请声明来源钻瓜专利网。