[发明专利]一种基于元结构学习的异构图转换的文本挖掘方法在审
| 申请号: | 202111121124.1 | 申请日: | 2021-09-24 |
| 公开(公告)号: | CN113806488A | 公开(公告)日: | 2021-12-17 |
| 发明(设计)人: | 王书海;彭浩;刘明瑞;刘欣 | 申请(专利权)人: | 石家庄铁道大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F16/35;G06F17/16;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 成都帝鹏知识产权代理事务所(普通合伙) 51265 | 代理人: | 李华 |
| 地址: | 050000 河*** | 国省代码: | 河北;13 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 结构 学习 构图 转换 文本 挖掘 方法 | ||
1.一种基于元结构学习的异构图转换的文本挖掘方法,其特征在于,包括步骤:
S10,针对文本数据,提取文本中的信息构造异构信息网络图;
S20,通过图转换层,以获取元路径来捕捉节点间的关系;
S30,通过建立通道型哈达玛积模块提取出元图结构,从而捕捉节点之间同时存在的多种交互情况;
S40,对提取出的包含元路径和元图的元结构使用图卷积网络,生成节点嵌入;
S50,利用获得的节点嵌入挖掘下游文本。
2.根据权利要求1所述的一种基于元结构学习的异构图转换的文本挖掘方法,其特征在于,在所述步骤S10中,针对文本数据,提取文本中的信息构造异构信息网络图,包括步骤:
S11,收集大量文本数据,使用N×D的原始特征矩阵U来存储文本的原始特征,其中N和D分别为文本的数量和文本特征的维度;并利用自然语言处理工具从文本数据中提取单词类型、文本类型、主题类型和实体类型;
S12,将文本中的单词提取为单词类型节点,学习单词向量,结果用于文本表示;如果文本中存在单词,则在文本节点和单词节点之间建立边;通过计算单词向量的相似度确定单词之间的联系;
S13,探索文本中潜在的主题,作为主题类型节点;主题分布通过计算语料库内单词的条件概率确定;为每个文本筛选出概率值最高的前K个主题;如果一个主题被文本所包含,就在这两个节点之间建立一条边;
S14,对于实体类型,建立文本和实体之间的联系以及实体之间的联系;
S15,将文本类型、单词类型、主题类型、实体类型信息作为异构信息网络图的节点,进而根据各个节点的关系建立异构信息网络图。
3.根据权利要求1所述的一种基于元结构学习的异构图转换的文本挖掘方法,其特征在于,在所述步骤S20中,通过图转换层,以获取元路径来捕捉节点间的关系,包括步骤:
S21,通过图转换网络提取异构信息网络图中的元路径,在第一图转换层中对异构信息网络图中不同边类型的邻接矩阵和权重矩阵进行卷积;
S22,使用第一图转换层的输出通过矩阵乘法生成基于元路径的邻接矩阵;
S23,堆叠多个图转换层,第二层及后面的图转换层的输入为上一层的输出和原始边类型邻接矩阵,第二层及后面的图转换层中卷积层的工作方式与第一图转换层相同,将对于每个通道中的所有边类型计算一个新的权重矩阵,并对每层生成基于邻接矩阵的元路径;
S24,元路径是与不同类型的边连接的路径,邻接矩阵通过沿路径的每种边类型的邻接矩阵经过卷积后相乘产生;
S25,根据沿该路径的所有边类型的权重的累积乘积,获得每个元路径的重要性得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于石家庄铁道大学,未经石家庄铁道大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111121124.1/1.html,转载请声明来源钻瓜专利网。





