[发明专利]一种可解释性推荐模型训练方法与装置有效
申请号: | 202110754850.0 | 申请日: | 2021-07-02 |
公开(公告)号: | CN113360772B | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 赵愉悦;谢海永;吴曼青 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/28;G06F40/30;G06K9/62;G06N20/00 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 吴梦圆 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 解释性 推荐 模型 训练 方法 装置 | ||
1.一种可解释性推荐模型训练方法,包括:
获取多位用户的用户行为的时间序列;
基于所述时间序列处理初始知识图谱,获取时序知识图谱;
通过嵌入联合学习模型,得到所述时序知识图谱的特征向量,其中,所述特征向量包括实体特征向量和关系特征向量;以及
根据所述特征向量训练初始模型,得到目标推荐模型;
其中,所述通过嵌入联合学习模型,得到所述时序知识图谱的特征向量,包括:
将所述时序知识图谱映射到向量空间,得到所述知识图谱的多个三元组,其中,每一个所述三元组包括初始头实体特征向量、初始关系特征向量和初始尾实体特征向量;
根据所述多个三元组,构建所述嵌入联合学习模型的第一目标函数;以及
求解所述第一目标函数,得到所述时序知识图谱的特征向量;
其中,所述初始关系特征向量归属于多个时间簇;
其中,所述根据所述多个三元组,构建所述嵌入联合学习模型的第一目标函数,包括:
根据负采样方法确定所述多个三元组的第一损失函数;
根据第一约束条件确定所述多个三元组的第二损失函数,其中,所述第一约束条件包括归属于不同时间簇的初始关系特征向量之间的距离大于归属于相同时间簇的初始关系特征向量之间的距离;
根据第二约束条件确定所述多个三元组的第三损失函数,其中,所述第二约束条件包括归属于相同时间簇的初始关系特征向量之间的距离小于预设收敛值;以及
基于所述第一损失函数、所述第二损失函数和所述第三损失函数,确定所述嵌入联合学习模型的第一目标函数;
其中,所述根据所述特征向量训练初始模型,得到目标推荐模型,包括:
根据所述特征向量构建马尔可夫决策过程环境;以及
在所述马尔可夫决策过程环境下,使用深度强化学习训练所述初始模型,以获取所述目标推荐模型;
其中,所述马尔可夫决策过程环境中包括状态空间、动作空间和得分,其中,所述状态空间包括多个状态向量,所述动作空间包括多个动作向量;
其中,所述根据所述特征向量构建马尔可夫决策过程环境,包括:
根据所述特征向量,生成与每一位用户对应的状态向量,其中,所述状态向量包括初始状态向量、中间状态向量和终端状态向量;
获取所述状态向量发生状态转移时生成的动作向量;以及
根据所述终端状态向量生成所述终端状态向量对应的动作路径的得分,其中,所述动作路径包括所述用户的初始状态向量转移到所述终端状态向量的过程中生成的动作向量的集合;
其中,所述在所述马尔可夫决策过程环境下,使用深度强化学习训练所述初始模型,以获取所述目标推荐模型,包括:
对所述状态向量进行编码,得到编码后的状态向量;
根据所述编码后的状态向量和所述动作路径构建第二目标函数;以及
根据第三约束条件训练所述第二目标函数,得到所述目标推荐模型,其中,所述第三约束条件包括最大化所述动作路径的得分。
2.根据权利要求1所述的方法,其中,所述初始知识图谱包括实体和所述实体之间的初始交互关系;
其中,所述基于所述时间序列处理初始知识图谱,获取时序知识图谱,包括:
基于高斯混合模型分析所述时间序列,得到时序交互关系;以及
使用所述时序交互关系替代所述初始交互关系,得到所述时序知识图谱。
3.根据权利要求2所述的方法,其中,所述时间序列中包括n个时间戳,其中,所述n为正整数;
其中,所述基于高斯混合模型分析所述时间序列,得到时序交互关系,包括:
将所述n个时间戳映射到时间特征空间中,得到n个时间向量;
采用高斯混合模型对所述n个时间向量进行聚类,获取所述n个时间戳的聚类结果;以及
基于所述聚类结果,得到所述时序交互关系。
4.根据权利要求1所述的方法,其中,所述求解所述第一目标函数,得到所述时序知识图谱的特征向量,包括:
通过随机梯度下降法对所述第一目标函数的参数进行优化求解,以获取所述时序知识图谱的特征向量。
5.一种可解释性推荐模型训练装置,包括:
获取模块,用于获取多位用户的用户行为的时间序列;
处理模块,用于基于所述时间序列处理初始知识图谱,获取时序知识图谱;
特征提取模块,用于通过嵌入联合学习模型,得到所述时序知识图谱的特征向量,其中,所述特征向量包括实体特征向量和关系特征向量;以及
训练模块,用于根据所述特征向量训练初始模型,得到目标推荐模型;
其中,所述特征提取模块包括第一特征提取单元、第二特征提取单元和第三特征提取单元;
所述第一特征提取单元,用于将所述时序知识图谱映射到向量空间,得到所述知识图谱的多个三元组,其中,每一个所述三元组包括初始头实体特征向量、初始关系特征向量和初始尾实体特征向量;
所述第二特征提取单元,用于根据所述多个三元组,构建所述嵌入联合学习模型的第一目标函数;以及
所述第三特征提取单元,用于求解所述第一目标函数,得到所述时序知识图谱的特征向量;
其中,所述初始关系特征向量归属于多个时间簇;
其中,所述第二特征提取单元包括第一特征提取子单元、第二特征提取子单元、第三特征提取子单元和第四特征提取子单元;
所述第一特征提取子单元,用于根据负采样方法确定所述多个三元组的第一损失函数;
所述第二特征提取子单元,用于根据第一约束条件确定所述多个三元组的第二损失函数,其中,所述第一约束条件包括归属于不同时间簇的初始关系特征向量之间的距离大于归属于相同时间簇的初始关系特征向量之间的距离;
所述第三特征提取子单元,用于根据第二约束条件确定所述多个三元组的第三损失函数,其中,所述第二约束条件包括归属于相同时间簇的初始关系特征向量之间的距离小于预设收敛值;以及
所述第四特征提取子单元,用于基于所述第一损失函数、所述第二损失函数和所述第三损失函数,确定所述嵌入联合学习模型的第一目标函数;
其中,所述训练模块包括第一训练单元和第二训练单元;
所述第一训练单元,用于根据所述特征向量构建马尔可夫决策过程环境;以及
所述第二训练单元,用于在所述马尔可夫决策过程环境下,使用深度强化学习训练所述初始模型,以获取所述目标推荐模型;
其中,所述马尔可夫决策过程环境中包括状态空间、动作空间和得分,其中,所述状态空间包括多个状态向量,所述动作空间包括多个动作向量;
其中,所述第一训练单元包括第一训练子单元、第二训练子单元和第三训练子单元;
所述第一训练子单元,用于根据所述特征向量,生成与每一位用户对应的状态向量,其中,所述状态向量包括初始状态向量、中间状态向量和终端状态向量;
所述第二训练子单元,用于获取所述状态向量发生状态转移时生成的动作向量;以及
所述第三训练子单元,用于根据所述终端状态向量生成所述终端状态向量对应的动作路径的得分,其中,所述动作路径包括所述用户的初始状态向量转移到所述终端状态向量的过程中生成的动作向量的集合;
其中,所述第二训练单元包括第四训练子单元、第五训练子单元和第六训练子单元;
所述第四训练子单元,用于对所述状态向量进行编码,得到编码后的状态向量;
所述第五训练子单元,用于根据所述编码后的状态向量和所述动作路径构建第二目标函数;以及
所述第六训练子单元,用于根据第三约束条件训练所述第二目标函数,得到所述目标推荐模型,其中,所述第三约束条件包括最大化所述动作路径的得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110754850.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种二硬脂酰磷脂酰甘油钠的制备工艺
- 下一篇:一种利用冷凝水的高效节能装置