[发明专利]论文作者的消歧方法、装置和计算机设备有效
| 申请号: | 202010740289.6 | 申请日: | 2020-07-28 |
| 公开(公告)号: | CN111881693B | 公开(公告)日: | 2023-01-13 |
| 发明(设计)人: | 马文佳;林桂;倪渊 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/35 |
| 代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉;曹勇 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 论文 作者 方法 装置 计算机 设备 | ||
1.一种论文作者的消歧方法,其特征在于,包括:
将数据库中所有论文涉及的作者姓名分别按照预设规则形成姓名树;
获取所述数据库中所有论文对应的关联关系异质网络,其中,所述关联关系异质网络包括作者与协作者关联关系、以及作者与机构关联关系;
获取所述数据库中所有论文分别对应的论文语义表征;
基于所述姓名树、所述关联关系异质网络和所述论文语义表征,构建相似矩阵;
对所述相似矩阵进行聚类,得到所述数据库中所有论文对应的论文聚类群;
判断待消歧作者对应的论文聚类群是否属于指定作者对应的论文聚类群,其中,所述指定作者为数据库中所有论文涉及的所有作者中的任意一个;
若否,则判定所述待消歧作者与所述指定作者不同;
所述将数据库中所有论文涉及的作者姓名分别按照预设规则形成姓名树的步骤,包括:
将指定姓名依据书写分隔符,按照开头字母处于英文字母表中排序,由前至后拆分成第一部分和第二部分,其中,所述指定姓名为所述数据库中所有论文涉及的作者姓名中的任意一个;
将所述第一部分和所述第二部分分别对应的首字母组合为第一名字,将所述第一部分对应的第一个单词作为第二名字,将所述第二部分对应的第一个单词作为第三名字,将所述第一部分的第一个单词之外的剩余部分作为第四名字,将所述第二部分的第一个单词之外的剩余部分作为第五名字;
依据所述第四名字形成所述第二名字对应的第一分支,以及依据所述第五名字形成所述第三名字对应的第二分支;
以所述第一名字为根目录,链接所述第一分支和所述第二分支,形成所述指定姓名对应的姓名树。
2.根据权利要求1所述的论文作者的消歧方法,其特征在于,所述依据所述第四名字形成所述第二名字对应的第一分支,以及依据所述第五名字形成所述第三名字对应的第二分支的步骤,包括:
获取与所述第四名字满足预设相似度的各第一名字组合,获取与所述第五名字满足所述预设相似度的各第二名字组合;
将各所述第一名字组合并列连接所述第二名字,形成所述第一分支,将各所述第二名字组合并列连接所述第三名字,形成所述第二分支。
3.根据权利要求1所述的论文作者的消歧方法,其特征在于,获取所述数据库中所有论文分别对应的论文语义表征的步骤,包括:
获取指定论文的标题内容和摘要内容;其中,所述指定论文为所述数据库中所有论文中的任意一篇论文;
通过word2vec获取所述标题内容和摘要内容中每个词分别对应的语义表征向量;
根据所述标题内容和摘要内容中每个词分别对应的语义表征向量,计算所述标题内容和摘要内容分别对应的语义表征向量的平均值;
将所述语义表征向量的平均值,作为所述指定论文对应的论文语义表征。
4.根据权利要求1所述的论文作者的消歧方法,其特征在于,获取所述数据库中所有论文对应的关联关系异质网络的步骤,包括:
获取各论文中分别包括的各首作者与协作者,以及各所述首作者的工作机构信息,作为所述关联关系异质网络的论文节点类型;
对所述数据库中的论文进行两两比较,判断各论文的所述首作者的工作机构信息分别对应的共同词的数量,是否超过第一预设数量,判断各论文的首作者与协作者中分别存在的共同作者的数量,是否超过第二预设数量;
若是,则链接共同词的数量超过第一预设数量的两篇论文对应的节点,形成论文机构对应的边,链接共同作者的数量超过第二预设数量的两篇论文对应的节点,形成论文共同作者对应的边;
基于各所述首作者与协作者、各所述首作者的工作机构信息,分别对应的论文节点类型,以及各所述论文机构对应的边、各所述论文共同作者对应的边,形成所述关联关系异质网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010740289.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于VBA和C#的排班考勤方法
- 下一篇:一种藏茶压片糖及其制备方法





