[发明专利]一种基于异质信息网络表示学习和词向量表示的学术论文同名排歧方法在审
申请号: | 202110258416.3 | 申请日: | 2021-03-10 |
公开(公告)号: | CN113051397A | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 尹宝才;崔言杰;张勇;张鹏宇 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 信息网络 表示 学习 向量 学术论文 同名 方法 | ||
1.一种基于异质信息网络表示学习和词向量表示的学术论文同名排歧方法,其特征在于,包括以下步骤:
步骤1:对论文数据集进行预处理,提取排歧所需要的的文本信息和关系信息;
步骤2:基于步骤1,合并每篇文章文本语义信息生成一段短文本,经过后续处理,最终生成用于训练的短文本信息语料库,最后训练生成词向量,从而获得每篇文章的文本语义表示向量;
步骤3:基于步骤1中提取的论文关系信息,构建论文的异质信息网络;通过一模型学习论文异质信息网络中节点的向量表示,该向量表示即每篇文章的关系向量;
步骤4:对步骤2生成的每篇文章的语义向量和步骤3生成的每篇文章的关系向量赋不同的权值生成最终表示每篇文章的向量,计算两两向量的相似性即得到每两篇文章的相似性,从而生成论文集的相似性矩阵;
步骤5:对步骤4生成的相似性矩阵进行聚类,聚类结果中的每一个簇代表论文集的真实作者,从而实现学术论文中同名排歧的任务。
2.根据权利要求1所述的一种基于异质信息网络表示学习和词向量表示的学术论文同名排歧方法,其特征在于:对论文集的每篇文章通过提取论文题目,论文摘要,论文关键词,论文作者信息机构,论文所发表的期刊或会议所生成一段短文本。
3.根据权利要求1所述的一种基于异质信息网络表示学习和词向量表示的学术论文同名排歧方法,其特征在于:对短文本的后续处理方法是对其进行小写化、分词处理和去停用词处理。
4.根据权利要求1所述的一种基于异质信息网络表示学习和词向量表示的学术论文同名排歧方法,其特征在于:所构建的异质信息网络,每个节点代表一篇文章;两个节点之间的边,一种类型是两篇文章如果有共同作者就建立一条co-author类型的无向边,权重方面是两篇文章共同合作者的个数;另一种类型是如果两篇文章中作者机构信息出现共有词就建立一条co-org类型的无向边,权重方面是两篇文章作者机构共有词个数。
5.根据权利要求1所述的一种基于异质信息网络表示学习和词向量表示的学术论文同名排歧方法,其特征在于:所述的模型是Hin2vec;采用所定义的权重进行游走;而是采用AdamW算法进行优化。
6.根据权利要求1所述的一种基于异质信息网络表示学习和词向量表示的学术论文同名排歧方法,其特征在于:在生成最终表示每篇文章的向量时,如果文章语义向量和关系向量都存在时,则每个向量的权重都是0.5,如果只存在文章的语义向量,则文章的语义向量代表文章最终表示向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110258416.3/1.html,转载请声明来源钻瓜专利网。