[发明专利]一种推荐架构下的基于对比学习调优的论文作者消歧方法在审
| 申请号: | 202210060374.7 | 申请日: | 2022-01-19 |
| 公开(公告)号: | CN114519108A | 公开(公告)日: | 2022-05-20 |
| 发明(设计)人: | 庄越挺;胡单春;邵健;鲁伟明;宗畅 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/335;G06F16/38;G06N20/00 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
| 地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 推荐 架构 基于 对比 学习 论文 作者 方法 | ||
本发明公开了一种推荐架构下的基于对比学习调优的论文作者消歧方法。本发明将论文作者消歧任务抽象为单塔推荐架构下的推荐排序问题。提出基于WideDeep推荐架构的排序算法解决基于表示的深度学习模型的语义漂移问题,实现基于多字段多实例注意力机制的深度模型与基于特征工程的线性模型相结合,使模型同时具备较强的泛化能力与记忆能力。此外,注意到真实匹配对之间应存在一定潜在模式的数据特点,针对性提出一种对比学习调优算法,引入对比学习损失,构建对比学习的正负样本,促使模型学习区分真实匹配对的高层次特征。
技术领域
本发明涉及自然语言处理中的知识图谱技术领域,尤其涉及一种推荐架构下的基于对比学习调优的论文作者消歧方法。
背景技术
名字歧义性在现实生活中和科学研究中是一个非常普遍的现象。有研究表明在美国,有1.14亿人用了最常见的300个名字。2016年据新华网统计,姓名为“张伟”的人数高达299025人,姓名为“王伟”的人数高达290619人。由于无法直接将文献、专利的作者/发明人与某一独立个体所对应,很难较好地进行学术评价、文献计量等活动,因此解决技术领域数据中的名字歧义性,即论文作者消歧一直是开展文献计量、创新扩散、产品研发以及学术/技术评价的重中之重。不少机构与研究者曾经尝试过使用具有唯一ID的姓名注册系统,如UAI_Sys、ORCID等。这类系统希望所有作者注册、上传并维护自己的成果信息,然而在现实世界中,这对于不少研究人员来说是一件非常无趣且麻烦的事情。因此这类系统很难进行推广,需要实现自动化的论文作者消歧算法才能满足现实需求。
目前主流的论文作者消歧算法通过对所有候选专家进行打分排序,并假设得分最高的专家就是目标匹配专家。这一类方法存在一个致命问题,在现实学术网络中,候选专家中没有真实匹配专家的情况十分常见。例如,新的研究人员发表的论文不存在与已有的专家实体集合中。因此,为了解决实时新增论文的作者消歧问题,不仅需要找到最匹配的候选专家,还要判断此候选专家是否为真实匹配专家,即解决不可链接指称项预测。
当前的方法在解决已有候选实体集合中找到最匹配候选实体时,其本质是学习一个打分函数,为待消歧论文作者和每个候选实体之间进行相似度打分。为衡量待消歧论文作者对和候选专家之间的相似度,有多种相似度计算方式:(1)使用一些基于无监督的相似度计算方法,如Jaccard相似度、余弦相似度或一些相似度规则,这类方法非常简单,但过于死板;(2)使用基于特征工程的有监督模型,构建一些属性特征,使用机器学习的算法在训练数据上拟合相似度函数,这类方法效果较好,但人工构建特征过于繁琐,且只能处理精确匹配的token,无法处理语义相似而token不同的情况;(3)使用基于表示的深度学习模型,利用低维的向量嵌入表示高维语义特征,可处理语义相似的情况,但可能因少量语义相近的token而使得精确匹配的token提供的信息量被稀释,出现语义漂移问题,反而使得模型性能下降。
发明内容
为了克服现有技术中的问题,本发明提供了一种推荐架构下的基于对比学习调优的论文作者消歧方法。本发明的技术方案如下:
本发明提供了一种推荐架构下的基于对比学习调优的论文作者消歧方法,其包括以下步骤:
步骤1:获取已有的专家档案库G=(E,P,EP,F),其中E是专家集合,ei表示第i个专家,P是已消歧论文集合,EP是专家与已消歧论文的著作权从属关系集合,定义为{epi,j∈EP|专家ei的j篇论文},F是属性字段集合;
步骤2:对于待消歧论文作者对p,a∈PA,其中PA是待消歧论文作者对集合,p,a分别是论文和作者姓名,首先根据作者姓名a在专家档案库G中找到相关的候选专家实体集合CN,最终的候选集合C=CN∪NIL,其中CN为专家档案库中匹配到的专家实体集合,NIL为不可链接指称项,代指不存在于已有专家档案库中的专家实体;将真实匹配专家记为c*,则c*∈C;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210060374.7/2.html,转载请声明来源钻瓜专利网。





