[发明专利]论文作者的消歧方法、装置和计算机设备有效
申请号: | 202010740289.6 | 申请日: | 2020-07-28 |
公开(公告)号: | CN111881693B | 公开(公告)日: | 2023-01-13 |
发明(设计)人: | 马文佳;林桂;倪渊 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/35 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉;曹勇 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 论文 作者 方法 装置 计算机 设备 | ||
本申请涉及人工智能技术,揭示了论文作者的消歧方法,包括:将数据库中所有论文涉及的作者姓名分别按照预设规则形成姓名树;获取数据库中所有论文对应的关联关系异质网络;获取数据库中所有论文分别对应的论文语义表征;基于姓名树、关联关系异质网络和论文语义表征,构建相似矩阵;对相似矩阵进行聚类,得到数据库中所有论文对应的论文聚类群;判断待消歧作者对应的论文聚类群是否属于指定作者对应的论文聚类群;若否,则判定待消歧作者与指定作者不同。通过对作者姓名进行预处理构建姓名树,然后根据姓名树消除了姓名书写存在不同表述方式时引起的聚类误差,保证同一位作者的姓名尽可能分在同一分组,提高姓名消歧的精准度。
技术领域
本申请涉及人工智能技术领域,特别是涉及到论文作者的消歧方法、装置和计算机设备。
背景技术
论文数据库中存在庞大的论文数量,每篇论文涉及的作者往往不止一个,很难基于数据库形成每位作者唯一对应的学术ID,将数据库中论文和作者自然人实现唯一对应关系,实现对同名作者的论文区分,提高数据库检索精准度。但现有实现方式需要作者的高度参与,比如作者上传论文,并维护个人信息,使得作者使用的热情不高,导致很难推行,也因此数据库信息很难完整,数据库中论文和作者姓名的对应关系达不到可用的水平。
发明内容
本申请的主要目的为提供论文作者的消歧方法,旨在解决数据库中论文和作者姓名的对应关系达不到可用的水平的技术问题。
本申请提出一种论文作者的消歧方法,包括:
将数据库中所有论文涉及的作者姓名分别按照预设规则形成姓名树;
获取所述数据库中所有论文对应的关联关系异质网络,其中,所述关联关系异质网络包括作者与协作者关联关系、以及作者与机构关联关系;
获取所述数据库中所有论文分别对应的论文语义表征;
基于所述姓名树、所述关联关系异质网络和所述论文语义表征,构建相似矩阵;
对所述相似矩阵进行聚类,得到所述数据库中所有论文对应的论文聚类群;
判断待消歧作者对应的论文聚类群是否属于指定作者对应的论文聚类群,其中,所述指定作者为数据库中所有论文涉及的所有作者中的任意一个;
若否,则判定所述待消歧作者与所述指定作者不同。
优选地,所述将数据库中所有论文涉及的作者姓名分别按照预设规则形成姓名树的步骤,包括:
将指定姓名依据书写分隔符,按照开头字母处于英文字母表中排序,由前至后拆分成第一部分和第二部分,其中,所述指定姓名为所述数据库中所有论文涉及的作者姓名中的任意一个;
将所述第一部分和所述第二部分分别对应的首字母组合为第一名字,将所述第一部分对应的第一个单词作为第二名字,将所述第二部分对应的第一个单词作为第三名字,将所述第一部分的第一个单词之外的剩余部分作为第四名字,将所述第二部分的第一个单词之外的剩余部分作为第五名字;
依据所述第四名字形成所述第二名字对应的第一分支,以及依据所述第五名字形成所述第三名字对应的第二分支;
以所述第一名字为根目录,链接所述第一分支和所述第二分支,形成所述指定姓名对应的姓名树。
优选地,所述依据所述第四名字形成所述第二名字对应的第一分支,以及依据所述第五名字形成所述第三名字对应的第二分支的步骤,包括:
获取与所述第四名字满足预设相似度的各第一名字组合,获取与所述第五名字满足所述预设相似度的各第二名字组合;
将各所述第一名字组合并列连接所述第二名字,形成所述第一分支,将各所述第二名字组合并列连接所述第三名字,形成所述第二分支。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010740289.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于VBA和C#的排班考勤方法
- 下一篇:一种藏茶压片糖及其制备方法