[发明专利]无监督的基于表示学习的同名作者消歧方法及装置有效

申请号：	202110240824.6	申请日：	2021-03-04
公开（公告）号：	CN113111178B	公开（公告）日：	2021-12-10
发明（设计）人：	杜一;董昊;宁致远;乔子越;周园春	申请（专利权）人：	中国科学院计算机网络信息中心
主分类号：	G06F16/35	分类号：	G06F16/35;G06K9/62
代理公司：	北京君尚知识产权代理有限公司 11200	代理人：	余长江
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	监督基于表示学习同名作者方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种无监督的基于表示学习的同名作者消歧方法，其步骤包括：

1)对科学文献数据进行预处理，得到若干结构化文本数据，抽取各结构化文本数据的第一关键文本信息与第二关键文本信息；

2)依据第一关键文本信息，将各结构化文本数据转化为第一论文语义表示向量，并生成第一论文相似度矩阵；

3)依据第二关键文本信息，将各结构化文本数据转化为第二论文语义表示向量，并生成第二论文相似度矩阵；

4)依据结构化文本数据生成论文网络，并针对每一待消歧作者，从论文网络中抽取存在该待消歧作者的节点，生成局部异质网络，其中论文网络的节点是各结构化文本数据相应的论文，论文网络的边为各论文间的关联关系；

5)对每一局部异质网络进行随机游走获取相应的路径集，并通过训练各路径集得到的论文关系表示向量，生成第三论文相似度矩阵；

6)根据第一论文相似度矩阵、第二论文相似度矩阵及第三论文相似度矩阵，得到混合表征学习的相似度矩阵，并对混合表征学习的相似度矩阵中的数据进行聚类，得到预聚类结果和聚类离群集；

7)对聚类离群集进行离散点指派，并结合预聚类结果，得到消歧结果；

其中通过以下步骤对对聚类离群集进行离散点指派：

7.1)对于每一离散点p_i，计算该离散点p_i与其它各点的相似度，得到相似度矩阵，Sim(p_i，p_j)＝w₀*count_{co_author}(p_i，p_j)+w₁*count_{co_venue}(p_i，p_j)+w₂*count_{co_org}(p_i，p_j)+w₃*count_{co_title}(p_i，p_j)+w₄*count_{co_keyword}(p_i，p_j)，其中p_j为任一其它点，w_*为权重；