[发明专利]一种基于向量表征和长短时记忆网络的音乐重复收听行为预测方法在审
申请号: | 201910223710.3 | 申请日: | 2019-03-22 |
公开(公告)号: | CN109977257A | 公开(公告)日: | 2019-07-05 |
发明(设计)人: | 郑增威;周燕真;孙霖 | 申请(专利权)人: | 浙江大学城市学院 |
主分类号: | G06F16/635 | 分类号: | G06F16/635;G06N3/04 |
代理公司: | 杭州九洲专利事务所有限公司 33101 | 代理人: | 张羽振 |
地址: | 310015*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 向量 记忆网络 音乐 用户收听 收听 行为预测 重复 预测 上下文信息 数据预处理 历史数据 时间序列 序列训练 音乐字典 转换 网络 | ||
本发明涉及一种基于向量表征和长短时记忆网络的音乐重复收听行为预测方法,包括步骤:1)数据预处理得到用户收听音乐的时间序列和音乐字典;2)对用户收听的音乐进行向量表征并转换历史数据序列;3)用向量表征后的序列训练长短时记忆网络并预测,采用长短时记忆网络LSTM来对用户的音乐重复收听行为进行预测。本发明的有益效果是:提供了一种向量表征和长短时记忆网络的音乐重复收听行为预测方法,把用户收听的音乐进行向量表征,能够利用用户收听音乐行为中的上下文信息,再采用LSTM网络更加准确高效地对音乐重复收听行为进行预测。
技术领域
本发明涉及一种音乐重复收听行为预测方法,更具体的说,涉及一种基于向量表征和长短时记忆网络的音乐重复收听行为预测方法。
背景技术
随着网络信息技术的不断发展,用户越来越习惯通过网络来在线收听音乐。在收听音乐室时会产生大量的用户数据,这些数据中包含了很多有用的信息。用户在收听音乐时,存在大量的重复收听行为,有研究指出用户的70%的收听行为都是重复收听之前已经听过的音乐。通过分析用户的历史收听行为数据,可以分析各个用户的重复收听习惯从而预测用户未来可能的重复收听行为,这对给用户提供更好的个性化推荐服务。
如何更好的利用用户的历史数据从而有效准确地预测用户未来的重复收听行为,是本领域技术人员急需解决的问题。
发明内容
本发明的目的在于克服上述不足,提供一种基于向量表征和长短时记忆网络的音乐重复收听行为预测方法。
基于向量表征和长短时记忆网络的音乐重复收听行为预测方法,包括如下步骤:
步骤一、数据预处理得到用户收听音乐的时间序列和音乐字典:
根据时间顺序抽取用户收听音乐的历史数据{music1,music2,…,musicT}并生成用户收听的音乐的字典集;
步骤二、对用户收听的音乐进行向量表征并转换历史数据序列:
采用skip-gram训练模型来生成歌曲的向量。训练的过程分为两部分,首先用训练数据构建一个神经网络,建立模型生成一个向量空间,然后通过模型来获取歌曲项目在这个空间内的表征向量,网络隐层的权重矩阵就是所需要的向量;
步骤三、用向量表征后的序列训练长短时记忆网络并预测:
采用长短时记忆网络LSTM来对用户的音乐重复收听行为进行预测;预测的LSTM包括三个控制门层:遗忘门层、输入门层、输出门层;LSTM的训练数据为步骤二中通过表征向量转换后的用户历史收听序列。
作为优选:所述步骤二的具体步骤为:
1)首先选取序列中的一首音乐作为输入;
2)定义一个参数skip_window,代表从当前输入项目的左侧或右侧选取项目的数量,从而得到一个选取窗口;然后定义另一个参数num_skips,代表从整个窗口中取多少个项目作为输出,然后得到(输入项目,输出项目)形式的训练数据;
3)最后神经网络基于(输入项目,输出项目)形式的训练数据进行训练并得到一个概率分布,这个概率分布表示当前词典中每个词是输出词的可能性;
4)最终在训练好一个skip-gram模型时,会得到隐含层的权重矩阵W;对于一个有N个项目的消费序列,用M维的特征来表示一个项目,神经网络的隐含层就有M个节点,则隐含层的权重矩阵W的维度为N*M维;最后隐含层的权重矩阵W就能转化成N个项目的向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学城市学院,未经浙江大学城市学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910223710.3/2.html,转载请声明来源钻瓜专利网。