[发明专利]基于词向量训练的电视节目推荐方法在审
申请号: | 201711146651.1 | 申请日: | 2017-11-17 |
公开(公告)号: | CN107977355A | 公开(公告)日: | 2018-05-01 |
发明(设计)人: | 刘刚;刘鑫;唐军 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 成都虹桥专利事务所(普通合伙)51124 | 代理人: | 李凌峰 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 向量 训练 电视节目 推荐 方法 | ||
技术领域
本发明涉及电视节目推荐技术,特别涉及基于词向量训练的电视节目推荐方法的技术。
背景技术
面对日益增加的电视内容,如何对不同用户进行个性化推荐已经成为智能电视的攻坚方向。目前的主要推荐方法可以分为三类:基于内容推荐、基于协同过滤推荐和基于社会化过滤的推荐。其中以前两种应用最广。节目特征的人工标注、统计数据的稀疏性等均会在不同程度上影响推荐效果。上述三类方法,算法实质都是通过对节目自身特征或用户特征,或两者相结合的方式,通过特征提取或相关性分析等手段实现推荐如何避免过多的人工干预,减少节目分类和特征选取带来的巨大工作量和不确定性。
目前主要的推荐算法包括两类,分别是基于内容推荐,基于协同过滤推荐。其中以基于内容推荐和基于协同过滤推荐应用交广。基于内容推荐不与用户直接发生联系,完全依靠项目自身属性构建项目之间的联系。基于协同过滤推荐算法包括基于用户协同(UserCF)和基于物品协同(itemCF)两类,前者是假定如果两个用户过去有共同喜好,那么将来仍然会有相似喜好,后者是假设用户如果过去喜欢某种产品,那么将来他仍然会喜欢与该产品相似的产品。算法核心的就是计算两个用户或两个视频的相似度,常用的是余弦相似度或皮尔逊相关系数等。
目前的推荐算法主要存在如下弊端:
基于内容的推荐算法需要对产品的属性预先有准确的认识,一般是事先人工录入系统,而人工录入一般主观性较强,不确定因素较多。在特征提取方面,影视特征较多,容易导致提取的信息不完备,因而提取难度较大。从结果来看,基于内容的推荐结果不够新颖,不能给人眼前一亮的感觉。
基于协同过滤的算法是目前应用最广的算法。主要问题在于用户对于节目评分的稀疏性和主观性,即不同用户评分标准不同,而且用户一旦打分就不会更改。其次是评分矩阵的稀疏性,在现实生活中由于用户数和节目数都很多,但冷门节目收看人数很少,评分则更少,必然导致评分矩阵的稀疏性。
词向量是近年来自然语言处理领域的重要突破,主要用于文本处理、机器语言优化等领域。相较于传统的one-hot-representation模型,模型维数较少,且词汇之间相互联系。与其他自然语言处理模型一样,词向量训练的出发点是计算上下文词汇可以构成一句自然语言的概率。词向量模型由一个三层神经网络组成,通过梯度优化等深度学习的算法优化参数,最后得到词向量。
发明内容
本发明的目的是提供一种基于词向量训练的电视节目推荐方法,解决目前电视节目推荐算法中节目特征的人工标注、统计数据的稀疏性等均会在不同程度上影响推荐效果的问题。
本发明解决其技术问题,采用的技术方案是:基于词向量训练的电视节目推荐方法,其特征在于,包括以下步骤:
步骤1、筛选用户观看历史记录,以节目为词汇单元构建的上下文语料库,并对上下文语料库进行预处理;
步骤2、通过训练得到上下文语料库中各个节目名称分别对应的词向量;
步骤3、基于词向量计算各个节目的相似度,并将相似度进行排序,筛选出上下文语料库中与用户当前观看节目相似度最高的多个节目,完成节目推荐。
具体地,步骤1具体包括以下步骤:
步骤101、对用户观看历史记录进行处理,剔除观看时长比例较低的数据,以节目为词汇单元构建的上下文语料库;
步骤102、基于语料文本统计节目频率,并将观看频率较低的节目剔除;
步骤103、基于词频统计构建Huffman Tree。
进一步地,步骤103中,所述Huffman Tree的具体构建方式如下:将所有的节点放到一个队列中,用一个节点替换两个频率最低的节点,新节点的频率就是这两个节点的频率之和,原先的两个节点作为新节点的左右子节点,左节点编码为1,右节点编码为0,这样新节点就是两个被替换节点的父节点,如此循环,直到队列中只剩一个节点,在此基础上生成各个节点对应节目的Huffman编码。
具体地,步骤2具体包括以下步骤:
步骤201、设定词向量维度及上下文词汇数量;
步骤202、初始化上下文词向量(x1,x2…xn)及Huffman Tree中各中间节点的词向量(y1,y2…yn),其中n≥2,且n为整数,上下文词向量为随机初始化,而中间节点词向量初始化为0,并将初始化的上下文词向量作为输入层;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711146651.1/2.html,转载请声明来源钻瓜专利网。