[发明专利]基于语义信息的多通道图池化方法在审
申请号: | 202310070258.8 | 申请日: | 2023-02-07 |
公开(公告)号: | CN115965805A | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 孙志刚;曾佳悦;李先贤;王利娥 | 申请(专利权)人: | 广西师范大学 |
主分类号: | G06V10/762 | 分类号: | G06V10/762;G06V10/778;G06V10/82;G06V20/70;G06V10/764;G06N3/042;G06N3/047;G06N3/0464;G06N3/08 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 周雯 |
地址: | 541004 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 信息 通道 图池化 方法 | ||
本发明公开了一种基于语义信息的多通道图池化方法,包括如下步骤:1)图数据预处理阶段;2)GCN卷积阶段;3)多通道图池化阶段;4)图分类阶段。这种方法首先在数据预处理阶段通过将图数据推广到NLP中以增强节点特征的语义性,从而降低图特征矩阵的稀疏性,然后利用GCN卷积的消息传播机制更新图中节点的特征,最后利用多通道机制从多个角度池化图的结构和特征,通过通道之间图结构和特征的互补和融合保留原始图的综合性特征,从而提升图分类任务的准确性。
技术领域
本发明涉及图神经网络中的池化和图分类技术领域,具体是基于语义信息的多通道图池化方法。
背景技术
图结构数据是现实生活中广泛存在的一类数据形式,它可以形象地表示复合对象及其对象之间的复杂关系,如社交网络中用户及其交互信息,引文网络中文献间引用与被引用的关系,生物信息学中蛋白质的相互作用,化学分子结构中化学键的构造等。与排列规则的欧几里得数据不同,图数据结构复杂,且包含大量的信息。因此,基于图数据的相关研究成为近年来的热点问题。
图卷积网络(Graph Convolutional Network,简称GCN)利用节点之间的信息传播学习节点的特征向量,它在基于图数据的下游分析任务中取得了优异的性能。根据主体对象的不同,图分析任务主要分为节点级别任务和图级别任务。在节点级别任务中,GCN通过图卷积在节点之间传播信息,结合下游任务生成节点级特征向量;而在图级别任务中,对于大小和拓扑不同的图结构,GCN需要利用池化算子将所有节点的信息集成在一起,生成整个图的特征向量。池化算子可以将GCN学习到的图下采样为较小尺寸的图或单个向量。因此,对于图级别任务,池化机制是必不可少的组成部分。最近已经有一些工作开始关注图的分层池化,主要通过迭代将图逐渐粗化为更小尺寸的图来保留图中重要的结构和特征信息。根据粗化图的方式不同,分层池化可以分为节点聚类池化和节点选择池化。节点聚类池化通过设计软分配矩阵将节点分配到不同簇中,每个簇作为池化结果中的一个节点,从而收缩图的规模,生成池化图的特征向量;而节点选择池化,利用节点特征和结构信息计算节点的重要性,然后选择部分重要的节点形成新的池化图。与节点聚类池化相比,节点选择池化计算效率更高,更适用于大规模的图。
作为一种经典的图级别任务,图分类在利用GCN对图中节点特征和结构信息进行汇总后,需要通过池化操作生成图级别的特征向量,然后学习图与对应标签的映射模型,从而实现对未知图的标签预测。例如在化学信息学中,将化合物构建为图结构数据,利用GCN和池化操作生成化合物的向量表示,然后训练MLP模型判断该化合物是否具有某种属性。由此可见,节点特征学习和池化方法的研究对于图分类具有非常重要的意义。
经过调研,现有的基于GCN的图分类方法存在两方面不足。第一,模型输入以标签图为主,即图中的节点仅包含标签信息,而标签信息采用one-hot编码生成节点的初始特征,这种编码方式存在特征稀疏且无语义信息的缺点,导致整个分类任务的精确度下降。第二,节点聚类池化生成图的层次表示仅考虑了图的全局结构信息但没有考虑局部结构信息;而节点选择池化保留原始图中的部分节点考虑了图的局部结构信息但没有考虑全局结构信息,因此,池化过程中仅使用单一池化方式会造成有用节点的信息丢失,降低分类精确度。
发明内容
本发明的目的是针对输入数据特征稀疏且语义信息匮乏、图池化过程仅采用单一的池化方法会造成判别信息丢失等问题,提出了一种基于语义信息的多通道图池化方法,这种方法通过增强节点特征的语义性,从而降低特征的稀疏性,然后利用多通道机制从多个角度池化图的结构和特征,通过通道之间的互补和融合保留原始图的综合性特征,从而提升图分类任务的准确性。
实现本发明目的的技术方案是:
基于语义信息的多通道图池化方法,包括如下步骤:
1)图数据预处理阶段:
1.1)构造语料库集合:
利用WL子树模式迭代,提取图中不同高度的子树模式构造语料库集合CS;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310070258.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:耐高温汽包双色水位计
- 下一篇:多锯头锯切机摆动锯切机构
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置