[发明专利]基于引入语义信息的神经网络的学术关系预测方法和装置在审
申请号: | 202011052521.3 | 申请日: | 2020-09-29 |
公开(公告)号: | CN112148776A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 赵虹;田宇菲;胡泓;李悦江 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28;G06F40/30;G06N3/04 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 郑朝然 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 引入 语义 信息 神经网络 学术 关系 预测 方法 装置 | ||
本发明实施例提供一种基于引入语义信息的神经网络的学术关系预测方法和装置,该方法包括:确定待预测两节点的节点信息组合,学者节点的节点信息包括学者个人信息,论文节点的节点信息包括论文标题和论文摘要;将节点信息组合输入关系预测模型,输出两节点的关系类型向量;其中,关系预测模型是基于样本节点信息和预先确定的样本节点之间的关系类型向量标签进行训练后得到的,训练中的样本学者节点和样本论文节点的特征向量分别由学者个人信息特征加随机附加特征构成和论文标题信息特征加论文摘要信息特征构成。本发明实施例提供的方法和装置,实现了考虑论文语义信息而提高学术关系预测准确率低并使能挖掘学术关系种类更多。
技术领域
本发明涉及学术关系预测技术领域,尤其涉及一种基于引入语义信息的神经网络的学术关系预测方法和装置。
背景技术
近年来,随着移动互联网的普及和信息来源的丰富,存储在互联网上的非结构化信息呈现出指数级的增长趋势。由于人们很难从繁杂且数量巨大的非结构化信息中高效地提取所需需要的结构化信息,网络信息挖掘的相关研究应运而生。许多社会生活中的实际应用场景,例如说高分子化合物、交通道路网络、学术合作网络、生物信息、社交媒体网络等等,都可以通过一定手段建模为图。
通过将实体(节点)间的交互建模为图,研究者将同构图分析理论进一步扩展、与深度学习和网络嵌入表示相融合,将图神经网络应用到复杂图的分析任务中,如节点推荐、节点分类、链接预测等,从而挖掘数据背后隐藏的信息。其中,推荐系统已在电子商务平台(如亚马逊、淘宝等)、社交媒体(如脸书、推特、微博等)、合作者与论文推荐(谷歌学术、DBLP等)、新闻销售平台(今日头条等)、娱乐平台(如IMDb、烂番茄、豆瓣等)和生活服务平台(如Yelp、大众点评等)起着重要的作用。
影响力最广泛的异构学者信息网络模型是元路径模型,它包含三种类型的信息实体:论文、场所和作者。对于每篇论文,它都有指向一组作者和一个地点的链接,这些链接属于一组链接类型。为了在复杂的异构信息网络中准确地建模对象链接的不同类型,提出了元级别(即模式级)的规范化的网络描述方法。表1位元路径示意表格,如表1所示,作者可以通过元路径“Author-Paper-Author”(APA)路径、“Author-Paper-Venue-Paper-Author”(APVPA)等路径进行连接。此外,元路径还可以连接不同类型的对象:如通过将作者和会议或期刊由APV路径产生关联,表明作者在会议或期刊上发表论文。
表1元路径示意表格
然而元路径由于需要人工定义全部路径,需要耗费的前期处理时间长,而且模型的泛化能力较差。近年来,随着深度学习和图卷积神经网络的成功,出现了“Heterogeneousgraph transformer”模型(异质图转换器模型,HGT模型)。它是一种基于注意力机制、消息传递和聚合的图神经网络模型,对源节点的信息进行聚合,得到目标节点的上下文表示。
现有技术中的元路径模型和HGT模型都有如下三点缺陷:
1、因为使用了庞大的深度学习模型,所以往往模型复杂度高、参数多、对计算力要求高、训练时间长;
2、需要人为手动定义元路径,劳动密集,花费大量时间精力,且定义的元路径难以做到全覆盖;
3、只是简单地区分各种类型的节点的链路,均未考虑到文章语义内容信息能从另一个角度为模型提供丰富的内涵。
因此,如何避免现有的基于神经网络的学术关系预测方法中预测模型不能考虑论文语义信息而造成的学术关系预测准确率低和能挖掘的关系种类少,仍然是本领域技术人员亟待解决的问题。
发明内容
本发明实施例提供一种基于引入语义信息的神经网络的学术关系预测方法和装置,用以解决现有技术中基于神经网络的学术关系预测方法的预测模型不能考虑论文语义信息而造成的学术关系预测准确率低和能挖掘的关系种类少的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011052521.3/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置