[发明专利]一种作者命名消歧的方法、装置和电子设备在审
申请号: | 202011083722.X | 申请日: | 2020-10-12 |
公开(公告)号: | CN111930955A | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 宋健;唐杰;刘德兵;高博;仇瑜;鄢兴雨;陈波;张惠聪 | 申请(专利权)人: | 北京智源人工智能研究院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/38 |
代理公司: | 北京动力号知识产权代理有限公司 11775 | 代理人: | 梁艳;白婉露 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 作者 命名 方法 装置 电子设备 | ||
本发明公开了一种作者命名消歧的方法、装置和电子设备。该方法包括:根据论文的相关信息,利用预先训练的分类模型从学术数据集中确定所述论文的唯一作者;对于不能确定唯一作者的论文,利用论文的相关信息搜索所述学术数据集获取备选论文集;对所述备选论文集中的论文进行聚类得到多个类别,并对所述备选论文集中的论文进行反向分类确定其所在的类别,按照所述类别为论文创建唯一作者。在实际工作中,采用本发明提供的方法对大数据集进行命名消歧,在不损失召回以及精度的前提下,达到了高效可扩展的效果。所以,本发明提供的方法为超大数据集的命名消歧提供了有效的解决办法。
技术领域
本发明涉及电子数据处理技术领域,尤其涉及一种作者命名消歧的方法、装置和电子设备。
背景技术
作者姓名歧义是数字图书馆等学术数据集中经常遇到的问题。这一问题产生的主要原因是不同作者可能以相同名称发表论文,而同一作者可能因缩写、昵称等原因以不同的名称发表论文。命名消歧正是解决这一问题的关键。在数字图书馆的文献管理、学术搜索和社会网络分析等许多应用中,命名消歧一直被视为一个具有挑战性的问题。
目前,命名消歧通常是独立的采用聚类算法或者分类算法。例如Kunho Kim提出的Gradient Boosted Trees分类方法在实验集上获得了7.45%的提升。其基本思想是从论文(paper)中提取作者的元数据title、venue、keyword、coauthor组合structure-aware特征,通过采用表示学习的方法,从一个DNN网络对paper文本抽取全局语义特征向量,将该向量结合到structure-aware特征中。又比如Wu提出了利用Dempster-Shafer理论(DST)结合Shannon进行作者命名消歧的聚类算法,通过对affiliation、venue、co-authors、citations这些基础信息的抽取,利用相似度算法,采用基于DST的层次聚类算法进行冷启动的命名消歧。还有完全基于姓名匹配的方法,比如Weisheng Chin基于字符串匹配的方法,首先通过姓名匹配,之后收集例如affiliation的背景信息进行匹配。
然而,对于例如AMiner(AMiner数据集本身拥有1.3亿的专家和2亿的论文,相较于DBLP、PubMed而言,数据量是其数十倍)的包括上亿数据的大数据集而言,作者的命名消歧是项更为复杂的工作,既要考虑算法的精度,又要考虑算法的速度;既要考虑现有数据,又要考虑每日增长的新数据。上述现有算法仅适合在相对较小的数据集上进行操作,一旦放在大数据集上运行时,就会出现召回问题,且速度较慢、精度不足。
发明内容
为了解决现有技术中存在的问题,本发明提供了如下的技术方案。
本发明提供了一种作者命名消歧的方法,包括:
根据论文的相关信息,利用预先训练的分类模型从学术数据集中确定所述论文的唯一作者;
对于不能确定唯一作者的论文,利用论文的相关信息搜索所述学术数据集获取备选论文集;
对所述备选论文集中的论文进行聚类得到多个类别,并对所述备选论文集中的论文进行反向分类确定其所在的类别,按照所述类别为论文创建唯一作者。
优选地,所述根据论文的相关信息,利用预先训练的分类模型从学术数据集中确定所述论文的唯一作者包括:
根据论文的作者姓名及机构名称从所述学术数据集中获取多个备选专家,利用预先训练的分类模型计算每个备选专家的得分,将得分最高的备选专家确定为所述论文的唯一作者。
优选地,所述利用论文的相关信息搜索所述学术数据集获取备选论文集包括:
根据论文的作者姓名及机构名称搜索所述学术数据集;
若搜索到的论文数量大于预设阈值,则将所述论文和所述搜索到的论文组合得到所述备选论文集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智源人工智能研究院,未经北京智源人工智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011083722.X/2.html,转载请声明来源钻瓜专利网。