[发明专利]一种推荐架构下的基于对比学习调优的论文作者消歧方法在审
| 申请号: | 202210060374.7 | 申请日: | 2022-01-19 |
| 公开(公告)号: | CN114519108A | 公开(公告)日: | 2022-05-20 |
| 发明(设计)人: | 庄越挺;胡单春;邵健;鲁伟明;宗畅 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/335;G06F16/38;G06N20/00 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
| 地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 推荐 架构 基于 对比 学习 论文 作者 方法 | ||
1.一种推荐架构下的基于对比学习调优的论文作者消歧方法,其特征在于,包括以下步骤:
步骤1:获取已有的专家档案库G=(E,P,EP,F),其中E是专家集合,ei表示第i个专家,P是已消歧论文集合,EP是专家与已消歧论文的著作权从属关系集合,定义为{epi,j∈EP|专家ei的j篇论文},F是属性字段集合;
步骤2:对于待消歧论文作者对<p,a>∈PA,其中PA是待消歧论文作者对集合,p,a分别是论文和作者姓名,首先根据作者姓名a在专家档案库G中找到相关的候选专家实体集合CN,最终的候选集合C=CN∪NIL,其中CN为专家档案库中匹配到的专家实体集合,NIL为不可链接指称项,代指不存在于已有专家档案库中的专家实体;将真实匹配专家记为c*,则c*∈C;
步骤3:对于每个候选专家c∈C,将其发表的论文信息与待消歧论文作者对信息分别通过Wide模型和Deep模型得到浅层特征与深层特征的相似度向量表示,并拼接获得最终的相似度向量表示Simc;
步骤4:应用打分模块对每一个候选实体c与待消歧论文作者对之间的相似度进行打分,获得分数Sc:
Sc=FC(Simc)
步骤5:分数Sc最高的候选实体c被认为是匹配实体。
2.根据权利要求1所述的推荐架构下的基于对比学习调优的论文作者消歧方法,其特征在于,所述的步骤3)中,所述的Wide模型为基于特征工程的线性模型,所述Deep模型为基于多字段多实例的消歧模型。
3.根据权利要求1所述的推荐架构下的基于对比学习调优的论文作者消歧方法,其特征在于,所述的步骤3)具体为:
步骤3-1:对于Wide模型,首先利用其内的浅层特征构建模块构建简单的线性特征X(<p,a>,c)=[X1(<p,a>,c),...,Xn(<p,a>,c)],其中,n为Wide模型使用的浅层特征数;然后通过两层线性层MLP生成浅层相似度向量表示χ(<p,a>,c):
χ(<p,a>,c)=MLP(X(<p,a>,c))
步骤3-2:Deep模型基于不同属性字段与不同论文对消歧结果的影响,分别建模全局相似度编码模块与局部相似度编码模块,分别获得全局相似度向量表示和局部相似度向量表示,并融合获得深层相似度向量表示
步骤3-3:获得浅层相似度向量表示χ(<p,a>,c)与深层相似度向量表示后,拼接获得相似度向量表示Simc:
4.根据权利要求3所述的推荐架构下的基于对比学习调优的论文作者消歧方法,其特征在于,所述的步骤3-2具体包括如下步骤:
步骤3-2-1:全局相似度编码模块利用候选专家c的所有论文,根据属性字段f∈F分组进行相似度计算,并使用注意力机制体现不同字段对相似度向量表示的影响,计算全局相似度向量表示φ(<p,a>,c);
步骤3-2-2:局部相似度编码模块基于专家发表的论文有多个主题的假设,认为待消歧论文只与部分候选专家论文强相关,而剩余论文弱相关甚至不相关,因此单独对待消歧论文与候选专家每一篇论文进行相似度编码;最终同样使用注意力机制体现不同论文的影响,计算局部相似度向量表示ψ(<p,a>,c);
步骤3-2-3:获得全局相似度向量表示与局部相似度向量表示后,拼接并通过3层线性层获得深层相似度向量表示其中表示拼接操作:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210060374.7/1.html,转载请声明来源钻瓜专利网。





