[发明专利]无监督的基于表示学习的同名作者消歧方法及装置有效
申请号: | 202110240824.6 | 申请日: | 2021-03-04 |
公开(公告)号: | CN113111178B | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 杜一;董昊;宁致远;乔子越;周园春 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 余长江 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 监督 基于 表示 学习 同名 作者 方法 装置 | ||
本发明公开了一种无监督的基于表示学习的同名作者消歧方法及装置,包括:对科学文献数据进行预处理;利用Word2Vec预训练模型和SCIBERT预训练模型分别生成基于Word2Vec和基于SCIBERT的文本语义表示向量;通过对消歧数据的处理生成局部异质网络,指定元路径metapath并利用metapath2vec方法获取基于局部图结构的论文关系表示向量;针对上述三种表征向量分别生成相似度矩阵并进行加权求和;利用无监督聚类方法进行聚类;对聚类离散点进行簇指派,得到最终消歧结果。本发明利用论文的表征信息,结合多重混合的表征学习和聚类离散点指派方法,增强消歧算法的泛化能力与鲁棒性,提高了消歧准确度与消歧效率。
技术领域
本发明涉及软件技术领域,尤其涉及一种无监督的基于表示学习的同名作者消歧方法及装置。
技术背景
数字学术检索系统为学者学术交流、论文信息检索、科学文献管理提供了诸多便利,例如谷歌学术、百度学术、DBLP、Aminer等。随着数字文献数据量的增长,学者重名率大大提高,可能会导致检索系统无法正确地返回学者信息,并且,每天都会有大量新论文更新到文献库中,因此人名消歧成为一项领域内极具挑战性的任务。
人名消歧任务通常参考重名学者的研究领域等特征区分不同的作者实体。当前已有诸多研究人员针对消歧任务提出了解决方案并取得进展。例如,CN201310202444提出一种基于本体的中文人名消歧方法,CN201610320129提出一种文献作者重名检测方法,CN201610638002提出一种面向英文文献中中国作者的姓名消歧方法,CN201811393285提出一种基于规则匹配和机器学习的论文作者名消歧方法等。随着表示学习方法日趋成熟,DeepWalk、Node2vec、LINE等图表示学习方法被提出,将表示学习应用到人名消歧问题中成为当前流行的解决方案之一,通过构建局部的论文图网络,利用图嵌入方法来表征论文信息,或利用Word2Vec、Doc2Vec等文本嵌入方法将论文关键信息(例如标题、所属机构、关键词、摘要等)转换为向量形式,对论文进行语义层面的表征。基于论文表征,利用K-MEANS、DBSCAN等聚类方法对论文集进行聚类,最终将近似的论文划分为一簇,非近似的论文划分为不同簇中,以达到对同名作者区分的目的。
中国专利申请CN111191466A公开了一种基于网络表征和语义表征的同名作者消歧方法,但其在论文语义表征上只使用了基于消歧数据集的预训练模型,只适用于线下小规模的消歧测试,而针对中型规模或较大规模的消歧任务,其发明还存在一些改良空间。此外,其在离群点的处理上,主要是利用文本匹配的方式进行相似度比较,且在离散点的簇指派上只考虑了一种最佳匹配,仍有待完善。除此之外,针对消歧结果中的离群点处理问题,现有技术中仍亦鲜有系统性方法,而这是一个亟待解决的问题。
发明内容
针对上述问题,本发明提出了一种无监督的基于表示学习的同名作者消歧方法及装置,其基于结合论文多重语义表征信息和局部图结构表征信息的相似度聚类解决方案,利用DBSCAN聚类方法对论文表征的相似度矩阵进行聚类,再通过离散点队列簇指派方法对聚类离散点集进行后处理,将聚类后的离散点根据预定义规则进行簇指派。
为了实现上述目的,本发明提供了如下的技术方案:
一种无监督的基于表示学习的同名作者消歧方法,其步骤包括:
1)对科学文献数据进行预处理,得到若干结构化文本数据,抽取各结构化文本数据的第一关键文本信息与第二关键文本信息;
2)依据第一关键文本信息,将各结构化文本数据转化为第一论文语义表示向量,并生成第一论文相似度矩阵;
3)依据第二关键文本信息,将各结构化文本数据转化为第二论文语义表示向量,并生成第二论文相似度矩阵;
4)依据结构化文本数据生成论文网络,并针对每一待消歧作者,从论文网络中抽取存在该待消歧作者的节点,生成局部异质网络,其中论文网络的节点是各结构化文本数据相应的论文,论文网络的边为各论文间的关联关系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110240824.6/2.html,转载请声明来源钻瓜专利网。