[发明专利]用于疾病预测的异质图表示方法、装置、设备及存储介质在审
| 申请号: | 202111504144.7 | 申请日: | 2021-12-10 |
| 公开(公告)号: | CN114141375A | 公开(公告)日: | 2022-03-04 |
| 发明(设计)人: | 李君一;贺明;黄晨;刘博;王亚东 | 申请(专利权)人: | 哈尔滨工业大学(深圳) |
| 主分类号: | G16H50/30 | 分类号: | G16H50/30;G16H50/20;G06Q10/04;G06F40/30 |
| 代理公司: | 深圳市道勤知酷知识产权代理事务所(普通合伙) 44439 | 代理人: | 何兵;吕诗 |
| 地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 疾病 预测 图表 方法 装置 设备 存储 介质 | ||
本发明公开了一种异质图表示方法、异质图表示设备、移动设备及存储介质,该方法包括:基于元路径将同一向量空间的异构图转化为同构图,各个同构图的节点类型与其源节点相同;对所述同构图的每个节点的子图进行分解,获得多个因子图;采用双注意力机制对所述多个因子图进行邻居信息聚合,并拼接聚合后的特征信息,获得元路径的节点特征向量;对不同元路径的节点特征向量进行融合,获得异构图节点的节点嵌入。由此,将异构图转化为同构图后,对节点的子图进行分解获得大量的因子图,并通过双注意力机制对因子图进行邻居信息聚合,以获得该异构图的节点嵌入,进而得到了异构图全面、准确的信息,提高了机器学习中基于少量数据的信息提取的准确性和全面性。
技术领域
本发明涉及生物信息中的疾病预测技术领域,尤其涉及一种异质图表示方法、装置、设备及存储介质。
背景技术
在生物信息研究领域,疾病和基因的关联预测一直是个热点问题,受限于基因的多效性集合很大,但是已经确认的疾病基因数目在整个基因组中占比很小,只能用较少的数据去挖掘疾病基因关联,并且疾病的遗传异质性使得模式具有多样性,因此疾病基因的预测是准确性依然不如人意。
提高疾病预测准确性的关键在于从有限的数据集中获取到更多的语义信息。因此,亟需提高对有限数据的信息获取能力。
发明内容
本发明提供一种异质图表示方法、装置、设备及存储介质,旨在提高机器学习中基于少量数据的信息提取的准确性和全面性。
为实现上述目的,本发明提供一种异质图表示方法,所述方法应用于异质图表示设备,所述方法包括:
基于元路径将同一向量空间的异构图转化为同构图,各个同构图的节点类型与其源节点相同;
对所述同构图的每个节点的子图进行分解,获得多个因子图;
采用双注意力机制对所述多个因子图进行邻居信息聚合,并拼接聚合后的特征信息,获得元路径的节点特征向量;
对不同元路径的节点特征向量进行融合,获得异构图节点的节点嵌入。
可选地,所述基于元路径将同一向量空间的异构图转化为同构图的步骤之前还包括:
将包含不同节点类型的数据集的异构图投影至同一向量空间,以统一模型输入特征向量的维度。
可选地,所述对所述同构图的每个节点的子图进行分解,获得多个因子图的步骤包括:
多次重构所述同构图的边权重,获得所述同构图每条边的新的权重矩阵,并基于所述新的权重矩阵获得节点的因子图。
可选地,所述对所述同构图的每个节点的子图进行分解,获得大量的因子图的步骤包括:
在重构权重获得因子图的过程中,通过判别损失函数计算多个因子图的判别损失,以获得包括不同语义信息的因子图。
可选地,所述双注意力机制包括自注意力机制和多头注意力机制;
所述采用双注意力机制对所述多个因子图进行邻居信息聚合,并拼接聚合后的特征信息,获得元路径的节点特征向量的步骤包括:
基于自注意力对单个因子图的目标节点的邻居信息进行聚合,获得聚合后的特征向量;
通过所述多头注意力机制重复执行所述聚合操作,并拼接聚合后的特征向量;
将所有因子图生成的特征向量进行拼接,获得元路径的节点特征向量。
可选地,所述基于自注意力对单个因子图的目标节点的邻居信息进行聚合获得聚合后的特征向量的步骤包括:
对单个因子图的目标节点的邻居信息进行聚合,获得聚合后目标节点在对应因子图中的注意力权重;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳),未经哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111504144.7/2.html,转载请声明来源钻瓜专利网。





