[发明专利]序列化数据处理方法和装置、文本处理方法和装置有效
| 申请号: | 202010237454.6 | 申请日: | 2020-03-30 |
| 公开(公告)号: | CN111461301B | 公开(公告)日: | 2021-05-25 |
| 发明(设计)人: | 屠明;黄静;何晓冬;周伯文 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06F16/901;G06F16/35 |
| 代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 李昊;王莉莉 |
| 地址: | 100176 北京市大兴区北京经济*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 序列 数据处理 方法 装置 文本 处理 | ||
本发明公开了一种序列化数据处理方法和装置、文本处理方法和装置,涉及数据处理领域。序列化数据处理方法包括:针对序列集合,构建包括多个节点的图;确定每个节点的初始的特征矩阵;将图中每个节点的初始的特征矩阵输入到图序列网络中,以便图序列网络利用每个节点的相邻节点的特征矩阵,对每个节点的特征矩阵进行更新;获得图序列网络输出的每个节点的特征矩阵,以便利用输出的特征矩阵进行基于序列的分类预测,其中,输出的每个节点的特征矩阵中包括节点对应的序列中每个元素对应的、更新的向量。从而,减少了基于图构建的神经网络在处理序列数据时流失的信息量,提高了基于处理后的数据进行分类预测时的准确性。
技术领域
本发明涉及数据处理领域,特别涉及一种序列化数据处理方法和装置、文本处理方法和装置。
背景技术
图神经网络(Graph Neural Networks,简称:GNN)是一种直接作用于图结构上的神经网络。图中的每个节点使用向量表示。GNN在自然语言处理、知识图谱系统、推荐系统、生命科学等多个领域都得到了广泛的应用。GNN对基于图的节点之间的相互关系进行建模。
发明内容
发明人对GNN进行分析后发现,GNN仅支持以向量形式表示的节点。在相关技术中,面对输入对象为序列的情况,GNN在对每个节点进行初始化时,会将序列中包括的所有向量总结为一个预设维度的向量,例如通过池化等计算方式获得向量,以将该向量作为节点的初始向量、并进行后续的计算。从而,通过GNN处理后的对象丧失了序列的特性,无法准确地反映输入对象的固有特征,导致后续基于GNN的输出结果做出的预测的准确性降低。
本发明实施例所要解决的一个技术问题是:如何减少基于图构建的神经网络在处理序列数据时流失的信息量,以提高基于处理后的数据进行分类预测时的准确性。
根据本发明一些实施例的第一个方面,提供一种序列化数据处理方法,包括:针对序列集合,构建包括多个节点的图,其中,每个节点对应序列集合中的一个序列;确定每个节点的初始的特征矩阵,其中,节点的初始的特征矩阵中包括节点对应的序列中每个元素的初始的向量;将图中每个节点的初始的特征矩阵输入到图序列网络中,以便图序列网络利用每个节点的相邻节点的特征矩阵,对每个节点的特征矩阵进行更新;获得图序列网络输出的每个节点的特征矩阵,以便利用输出的特征矩阵进行基于序列的分类预测,其中,输出的每个节点的特征矩阵中包括节点对应的序列中每个元素对应的、更新的向量。
在一些实施例中,对于图中的每个节点,图序列网络的每一层输出的节点的特征矩阵是根据上一层输出的节点的特征矩阵以及上一层输出的节点的相邻节点的特征矩阵确定的。
在一些实施例中,通过图序列网络对每个节点的特征矩阵进行更新包括:对于图中的每个节点:对于图序列网络的第k层输出的、节点的每个相邻节点,确定节点的特征矩阵与相邻节点的特征矩阵之间的协同注意力编码结果,其中,k为正整数;以及对节点的所有相邻节点对应的协同注意力编码结果进行池化,获得图序列网络的第k+1层输出的、节点的特征矩阵。
在一些实施例中,对于图序列网络的第k层输出的、节点的每个相邻节点,确定节点的特征矩阵与相邻节点的特征矩阵之间的协同注意力编码结果包括:对于图序列网络的第k层输出的、节点的每个相邻节点,根据第k层输出的、节点的特征矩阵和相邻节点的特征矩阵,计算节点对应的序列中的元素与相邻节点对应的序列中的元素之间的关联关系,获得关联矩阵;利用关联矩阵,分别对第k层输出的、节点的特征矩阵和相邻节点的特征矩阵进行变换,获得第一矩阵和第二矩阵;计算第k层输出的节点的特征矩阵与第一矩阵和第二矩阵之间的关联关系,获得节点的特征矩阵与相邻节点的特征矩阵之间的协同注意力编码结果。
在一些实施例中,序列化数据处理方法还包括:根据图序列网络输出的特征矩阵,确定用于预测的特征,其中,用于预测的特征是根据图中一个或多个节点的特征矩阵确定的;将用于预测的输入特征输入到机器学习模型中,获得分类预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010237454.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种免锁式施工防护栏
- 下一篇:图像分割方法及装置





