[发明专利]融合标题摘要语义关系的学术文献推荐方法在审
| 申请号: | 202210270510.5 | 申请日: | 2022-03-18 |
| 公开(公告)号: | CN114626369A | 公开(公告)日: | 2022-06-14 |
| 发明(设计)人: | 陈泽华;陈雨民;吕传建;闫一帆 | 申请(专利权)人: | 太原理工大学 |
| 主分类号: | G06F40/258 | 分类号: | G06F40/258;G06F40/30;G06F16/9535;G06N3/04;G06N3/08 |
| 代理公司: | 太原晋科知识产权代理事务所(特殊普通合伙) 14110 | 代理人: | 任林芳 |
| 地址: | 030024 *** | 国省代码: | 山西;14 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 融合 标题 摘要 语义 关系 学术 文献 推荐 方法 | ||
1.一种融合标题摘要语义关系的学术文献推荐方法,其特征在于:包括以下步骤,
S100:采集用户-文献交互数据并进行数据预处理;
S200:搭建结合文本与隐反馈信息的学术文献推荐网络,文献推荐网络首先通过预训练BERT模型获得标题摘要中单词的向量表示,接着通过标题摘要注意力机制捕获标题摘要之间语义关系获得更好的文献向量表示,最后结合去掉项目嵌入模块的NCF模型处理用户-文献交互信息实现文献推荐;
S300:将预处理后的数据集输入文献推荐网络,使用损失函数对文献推荐网络进行训练,并保存训练好的网络模型及参数;
S400:使用训练好的网络计算每位用户对其它所有未交互过的文献的喜好分数,根据喜好分数对文献进行排序,选取前N篇推荐给用户。
2.根据权利要求1所述的融合标题摘要语义关系的学术文献推荐方法,其特征在于:所述的步骤S100中,用户-文献交互数据为某位用户历史上是否收藏、浏览、点击过某篇文献,是则存在交互对,否则不存在,具体包括每个用户历史上交互过的文献以及对应文献的标题摘要文本。
3.根据权利要求2所述的融合标题摘要语义关系的文献推荐方法,其特征在于:所述的步骤S100中,数据预处理包括数据集的清洗和负采样,其中数据集的清洗包括合并重复文章、移除无效文章、去除收藏少于10篇论文的用户;负采样为对每对交互按比例随机选取几对不存在的交互。
4.根据权利要求1所述的融合标题摘要语义关系的文献推荐方法,其特征在于:所述的步骤S200中,
S201、将文献标题摘要文本传入预训练BERT模型,可以依次获得文献标题、摘要中单词的向量表示;
S202、通过标题摘要注意力机制捕捉标题摘要之间语义关系获得更好的文献向量表示;
S203、将S202中获得的文献向量表示赋值给去掉项目嵌入模块的NCF模型的GMFItem Vec和MLP Item Vec,作为 GMF文献向量表示和MLP文献向量表示,接着,通过广义矩阵分解与多层感知机两个模块分别处理用户-文献交互信息并融合得到用户对文献的喜好分数。
5.根据权利要求4所述的融合标题摘要语义关系的文献推荐方法,其特征在于:所述的步骤S202的具体过程为:
1)计算摘要句子中单词与标题中单词的相关性分数,
与为模型自主学习的权重参数,表示摘要第个句子中的第个单词,为标题;
2)对相关性分数进行归一化,得到摘要中每个单词的重要性权重,
;
3)使用一层双向GRU网络对摘要中单词的向量表示进行编码,以捕捉摘要句子中单词之间的语义关系,得到每个单词的隐藏状态,加权聚集摘要句子中每个单词隐藏状态得到摘要句子向量表示,
;
4)将标题中单词的向量表示依次通过一层单向GRU网络获得标题向量表示,将标题看作摘要的总结句,使用标题向量表示初始化另一个一层单向GRU网络的全局记忆,将摘要句子向量表示依次输入该GRU网络,得到文献向量表示。
6.根据权利要求1所述的融合标题摘要语义关系的文献推荐方法,其特征在于:所述的步骤S300中,使用对数损失函数作为损失函数:;其中,为预测喜好分数,表示正样本集,表示负样本集;对于用户-文献交互数据,为1表示用户可能对文献感兴趣,为0说明用户对文献不感兴趣或者用户根本没见过文献。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210270510.5/1.html,转载请声明来源钻瓜专利网。





