[发明专利]一种基于多属性特征的文章推荐方法有效
申请号: | 202110418032.3 | 申请日: | 2021-04-19 |
公开(公告)号: | CN113158041B | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 蔡世民;贺小雨;陈明仁 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F40/284;G06F16/33;G06K9/62;G06N3/08 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 陈一鑫 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 属性 特征 文章 推荐 方法 | ||
该发明公开了一种基于多属性特征的文章推荐方法,属于信息处理领域。用多属性文章特征的推荐方法,提取更多文章特征,提升推荐性能:利用基于文章引文网络的struc2vec嵌入向量,基于带有文章作者、机构信息的异构网络的metapath2vec嵌入向量,文章标题、摘要内容doc2vec的嵌入向量,在原引文网络的基础上,通过重构图的方法,该方法能够按照权重结合同构引文网络、异构文章网络、文本信息的嵌入结果。对于多属性特征的重构网络,使用能够结合结构信息和同质信息的方法进行图嵌入,提升推荐性能:通过node2vec方法得到文章节点含有结构信息和同质信息的嵌入向量,最终通过向量相似度进行推荐。
技术领域
本发明属于信息处理领域,特别是涉及基于文本特征、引文网络特征、异构网络特征的学术文章推荐方法。
背景技术
引文网络:引文网络是由学术文章作为节点构成的图,若两篇学术文章之间有引用关系,则将两个节点连边;引文网络为G(E,V),vi∈V表示文章vi在数据集之中,若eij∈E则表示文章vi、vj有引用关系;这里的引用关系连边eij是无向的,也就是说不区分是文章vi被文章vj引用还是文章vj被文章vi引用。
异构网络:对于图G(E,V)来说,如果节点集V中的点分为不同的类型,且不同类型的点存在连边,则这个图就是异构图,也叫异构网络。
带有文章作者、机构信息的异构网络:G′(V′,E′,T),其中V′=V1∪V2∪V3,V1为机构节点集合,V2为作者节点集合,V3为文章节点集合,T代表不同节点类型的集合,T={1,2,3},E′表示边的集合,简称边集。
含有多属性特征的引文网络:结合每篇文章的多种特征,在原引文网络的基础上重构的网络。
连通图:两个节点连通指的是两个节点间存在路径,连通图G(E,V)满足任意两个不同的顶点vi和vj都连通。
连通分量:无向图G(E,V)的连通分量是一个子图,此子图是连通图,但子图中所有顶点和子图以外的其他顶点不连通。
图嵌入:是一种把整个图或者图里面的节点映射成向量的方法。
文本表征:是自然语言处理领域中,将文本映射为向量的方法。
字符串:将多个字符存储成数组的数据结构。
子串:属于字符串的一部分,由任意个连续的字符组成,称为该串的子串。
特征:指的是代表图中节点或文章的向量。
节点的度:在图G(E,V)中,顶点vi的度是此顶点有边的条数,即deg(vi)=||K||,K={eij|eij∈E,vj∈V}。
随机游走:也称随机漫步,在图中,指的是对于某个节点,基于此节点到其他节点的转移概率,随机生成一条路径。
上下文(context)序列:随机游走生成的路径,也叫序列。
相似度:向量的相似程度的数量表示。直观上看,将多个文章表示为向量,通过两个向量的相似性则可以进行推荐。相似度的度量指标有欧几里得距离、余弦相似度等。
推荐列表:对每一篇文章,生成的一个含有和它若干篇相似文章的列表,其中相似文章按照相似度降序排列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110418032.3/2.html,转载请声明来源钻瓜专利网。