[发明专利]一种结合Doc2vec和Faiss的个性化文献推荐方法在审
| 申请号: | 202211437258.9 | 申请日: | 2022-11-17 |
| 公开(公告)号: | CN115905695A | 公开(公告)日: | 2023-04-04 |
| 发明(设计)人: | 张良;王现臣;肖银涛;王友平;高清华 | 申请(专利权)人: | 同方知网数字出版技术股份有限公司 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F40/30;G06F40/289;G06F16/31;G06F18/22 |
| 代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 陈新胜 |
| 地址: | 100192 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 结合 doc2vec faiss 个性化 文献 推荐 方法 | ||
1.一种结合Doc2vec和Faiss的个性化文献推荐方法,其特征在于,包括:
A、从学术文献库中采集学术文献数据并进行预处理,生成训练语料库;
B、将训练语料库输入Doc2vec模型进行训练,得到语义模型;
C、使用语义模型推断召回池文献Embedding和用户行为文献Embedding;
D、将召回池文献向量添加至Faiss,构建索引向量库;
E、制定用户Embedding计算规则,将所述用户行为文献Embedding进行线性加权作为用户特征向量;
F、基于用户特征向量在Faiss中进行文献召回,为用户生成个性化文献推荐列表。
2.如权利要求1所述的结合Doc2vec和Faiss的个性化文献推荐方法,其特征在于,所述A中学术文献库包括期刊、博士论文、硕士论文、会议文献库,采集百万级文献数据;对所述文献进行分词形成单词列表降噪、过滤掉停用词、非法字符形成训练语料库。
3.如权利要求1所述的结合Doc2vec和Faiss的个性化文献推荐方法,其特征在于,所述B中,采用Doc2vec的PV-DM训练方法和负采样加速训练方式,将训练语料库输入Doc2vec模型进行训练,得到语义模型。
4.如权利要求1所述的结合Doc2vec和Faiss的个性化文献推荐方法,其特征在于,所述C中,以期刊、博士论文、硕士论文、会议全量文献库作为召回池文献;将用户近半年下载、浏览、收藏、关注的文献滤重后作为用户的行为文献;针对所述每篇文献,融合其标题、摘要、关键词作为文本数据,经过分词、停用词过滤和降噪预处理操作后,输入预训练好的Doc2vec模型,推断出召回池文献Embedding和用户行为文献Embedding。
5.如权利要求1所述的结合Doc2vec和Faiss的个性化文献推荐方法,其特征在于,所述D中,确定Faiss索引类型,将召回池文献Embedding添加至Faiss,建立特征向量索引库。
6.如权利要求1所述的结合Doc2vec和Faiss的个性化文献推荐方法,其特征在于,所述E中,制定用户Embedding计算规则,包括对行为文献加权行为价值、时间衰减系数,对每个用户的行为文献Embedding按照所述计算规则进行线性加权,作为用户Embedding。
7.如权利要求6所述的结合Doc2vec和Faiss的个性化文献推荐方法,其特征在于,对四种行为文献进行聚合、滤重后,按用户操作时间进行倒排构成用户行为文献列表,为每篇行为文献计算时间衰减权重,根据用户兴趣偏好变化设计一个时间衰减函数:λ(T)=α|T-t|,其中α表示时间衰减系数,取值区间0<α<1,T表示当前时间,t表示用户行为时间,λ表示时间衰减权重;针对不同的用户,设定不同的行为价值权重,价值权重大小顺序为:w下载>w收藏>w关注>w浏览;
对用户行为文献列表中的所有文献特征向量加权对应的时间衰减权重和行为价值权重,加和求平均后作为用户的特征向量,用户u的embedding计算公式如下:
其中,n表示用户行为文献列表中的文献向量个数,pi表示第i个文献的特征向量,λi和wi分别表示第i个文献对应的时间权重和行为价值权重。
8.如权利要求1所述的结合Doc2vec和Faiss的个性化文献推荐方法,其特征在于,所述F中,基于用户特征向量,使用Faiss计算用户向量和文献向量之间的余弦相似度,根据相似度打分召回TopK个文献构成用户个性化文献推荐列表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网数字出版技术股份有限公司,未经同方知网数字出版技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211437258.9/1.html,转载请声明来源钻瓜专利网。





