[发明专利]基于词向量训练的电视节目推荐方法在审
申请号: | 201711146651.1 | 申请日: | 2017-11-17 |
公开(公告)号: | CN107977355A | 公开(公告)日: | 2018-05-01 |
发明(设计)人: | 刘刚;刘鑫;唐军 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 成都虹桥专利事务所(普通合伙)51124 | 代理人: | 李凌峰 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 向量 训练 电视节目 推荐 方法 | ||
1.基于词向量训练的电视节目推荐方法,其特征在于,包括以下步骤:
步骤1、筛选用户观看历史记录,以节目为词汇单元构建的上下文语料库,并对上下文语料库进行预处理;
步骤2、通过训练得到上下文语料库中各个节目名称分别对应的词向量;
步骤3、基于词向量计算各个节目的相似度,并将相似度进行排序,筛选出上下文语料库中与用户当前观看节目相似度最高的多个节目,完成节目推荐。
2.根据权利要求1所述的基于词向量训练的电视节目推荐方法,其特征在于,步骤1具体包括以下步骤:
步骤101、对用户观看历史记录进行处理,剔除观看时长比例较低的数据,以节目为词汇单元构建的上下文语料库;
步骤102、基于语料文本统计节目频率,并将观看频率较低的节目剔除;
步骤103、基于词频统计构建Huffman Tree。
3.根据权利要求2所述的基于词向量训练的电视节目推荐方法,其特征在于,步骤103中,所述Huffman Tree的具体构建方式如下:将所有的节点放到一个队列中,用一个节点替换两个频率最低的节点,新节点的频率就是这两个节点的频率之和,原先的两个节点作为新节点的左右子节点,左节点编码为1,右节点编码为0,这样新节点就是两个被替换节点的父节点,如此循环,直到队列中只剩一个节点,在此基础上生成各个节点对应节目的Huffman编码。
4.根据权利要求3所述的基于词向量训练的电视节目推荐方法,其特征在于,步骤2具体包括以下步骤:
步骤201、设定词向量维度及上下文词汇数量;
步骤202、初始化上下文词向量(x1,x2…xn)及Huffman Tree中各中间节点的词向量(y1,y2…yn),其中n≥2,且n为整数,上下文词向量为随机初始化,而中间节点词向量初始化为0,并将初始化的上下文词向量作为输入层;
步骤203、基于初始化的输入层的词向量进行算术求和,构建中间层的词向量(V1,V2…Vn),其中n≥2,且n为整数;
步骤204、根据目标词对应的Huffman编码,以中间层向量和子节点向量构建逻辑回归函数,节点编码为1,则该节点概率为P=σ(VTY),节点对应Huffman编码为0,则P=1-σ(VTY);
步骤205、构建当前词在Huffman Tree中各个节点对应的联合概率,即目标函数;
步骤206、通过梯度优化的方式求出目标函数的最优解,并且在梯度优化目标函数的过程中对输入的词向量进行不断更新,从而训练得到各个节目的词向量。
5.根据权利要求4所述的基于词向量训练的电视节目推荐方法,其特征在于,步骤205和/或步骤206中,所述目标函数具体为:
其中,w即为当前词,context(w)为当前词的上下文,C为整个上下文语料库,P(w|context(w))为某一个节点当前词与上下文构成自然语言的概率,L为各个节点的联合概率,即目标函数值。
6.根据权利要求5所述的基于词向量训练的电视节目推荐方法,其特征在于,步骤206中,所述训练的过程即通过优化参数使得目标函数L达到预设最大值的过程。
7.根据权利要求1-6任意一项所述的基于词向量训练的电视节目推荐方法,其特征在于,步骤3中,所述与用户当前观看节目相似度的计算公式如下:
其中,其中n≥2,且n为整数,相似度cosθ的取值范围为(-1,1),值接近1则表示两者相似度极高,值接近-1则表示两者完全不同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711146651.1/1.html,转载请声明来源钻瓜专利网。