[发明专利]一种基于异质信息网络表示学习和词向量表示的学术论文同名排歧方法在审
申请号: | 202110258416.3 | 申请日: | 2021-03-10 |
公开(公告)号: | CN113051397A | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 尹宝才;崔言杰;张勇;张鹏宇 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 信息网络 表示 学习 向量 学术论文 同名 方法 | ||
在当今电子信息化时代,大规模学术数字图书馆在学术界的重要性日趋明显,如知网、万方、DBLP等。在这些系统中收录了以百万计的学术文献记录,但是正因如此,大量学术文章不能很好的匹配其作者,存在明显的同名歧义问题。为了解决上述问题。本发明提供了一种基于网络表示学习和词向量表示进行同名排歧的方法。该方法主要是利用论文的文本信息,如题目、关键词等;论文的关系信息,如作者等。通过以上信息结合网络表示学习以及文本嵌入学习生成表示论文的向量;在通过计算两两向量(文章)之间的相似性生成相似性矩阵;对生成的论文相似性矩阵进行聚类,不同的作者的文章被分配到不同簇中,从而实现了学术论文中同名排歧。
技术领域
本发明主要涉及实体排歧,异质网络嵌入技术和深度学习领域,具体是一种基于异质信息网络表示学习和词向量表示的学术论文同名排歧技术。
背景技术
在这个电子信息化时代,大规模学术数字图书馆在学术界的重要性日趋明显,包括国内的知网、百度学术、Aminer,国外的DBLP、CiteSeer、arXiv、Google Scholar等,这些数字图书馆系统吸引了海量的学者用户。在这些系统中收录了大量的学术期刊、论文以及学者信息,并且提供有助于文献研究和发现服务以及其他类型的功能。这样的数字图书馆系统可能会列出数以百万计的书目文献记录,它们允许集中搜索和查找相关出版物,现已成为学术界的重要信息来源。但因为此类数字图书馆数据量巨大,大量学术文章不能很好的匹配其作者,存在明显的同名歧义问题。目前已经有很多学者针对同名排歧问题提出了一系列的方法。大多数现有的排歧方法是基于特征的,利用论文自身的特征内容,如标题、摘要、关键词、出版期刊会议等信息来学习论文之间的相似性,进而通过语义表示学习将语义信息表示成词向量的形式,用于聚类,使得相似性度高的文章聚到一簇。近年来,一些网络表示学习方法在同名排歧问题上取得较好效果,如DeepWalk,Node2vec等,构造论文信息网络,之后对其进行聚类,从而达到同名排歧的目的。
发明内容
为了解决大型数字图书馆中学术论文同名歧义的问题,本发明提供了一种基于网络表示学习和词向量表示对学术论文中同名歧义问题进行排歧的方法。该方法主要是利用论文的相关特征信息,包括论文的题目、论文的作者、论文所发表的期刊(会议)、论文作者所在机构、论文的摘要、关键词等。通过论文的文本信息,包括题目,摘要,关键词发表期刊(会议)等挖掘论文的语义信息,生成表示论文的语义向量;通过构建论文异质信息网络,学习生成论文间的关系向量;给论文的语义向量和关系向量赋不同的权值生成一个新的向量,该向量即表示一篇文章,通过计算两两向量(文章)之间的相似性生成相似性矩阵;对生成的论文相似性矩阵进行聚类,不同的作者的文章被分配到不同簇中,从而实现了学术论文中同名排歧。
本发明的具体步骤如下:
步骤一:对论文数据集中的数据进行去重处理。将论文的题目,发表期刊(会议),关键词,摘要以及作者的机构信息归为论文的语义信息;将论文的作者信息及作者的机构信息归为论文的关系信息。
步骤二:在步骤一的基础上,合并每篇文章的语义信息生成一段文本,对此段文本进行分词去停用词以及大小写转化生成最终用于训练的文本信息,通过FastText训练生成词向量,从而获得每篇文章的语义表示向量。
步骤三:在步骤一的基础上,构建论文的异质信息网络,该网络包含一种类型的节点和两种类型的边。给定论文训练数据集D,通过Hin2vec模型预测论文异质信息网络中两个节点Ti和Tj是否具有特定的关系R,同时学习网络中节点的向量表示,为了最大化目标函数O,同时简化计算,在训练时转化为最大化其对数函数为:
其中Ti和Tj代表论文异质信息网络中两个节点,即两篇文章,R代表两个节点是否存在特定关系。
在训练时,训练数据集是通过以下四元组的形式给出:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110258416.3/2.html,转载请声明来源钻瓜专利网。