[发明专利]序列化数据处理方法和装置、文本处理方法和装置有效
| 申请号: | 202010237454.6 | 申请日: | 2020-03-30 |
| 公开(公告)号: | CN111461301B | 公开(公告)日: | 2021-05-25 |
| 发明(设计)人: | 屠明;黄静;何晓冬;周伯文 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06F16/901;G06F16/35 |
| 代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 李昊;王莉莉 |
| 地址: | 100176 北京市大兴区北京经济*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 序列 数据处理 方法 装置 文本 处理 | ||
1.一种序列化数据处理方法,包括:
针对序列集合,构建包括多个节点的图,其中,每个节点对应所述序列集合中的一个序列,所述序列为文本;
确定每个节点的初始的特征矩阵,其中,所述节点的初始的特征矩阵中包括所述节点对应的序列中每个元素的初始的向量;
将所述图中每个节点的初始的特征矩阵输入到图序列网络中,以便所述图序列网络利用每个节点的相邻节点的特征矩阵,对每个节点的特征矩阵进行更新,包括:对于所述图中的每个节点:对于所述图序列网络的第k层输出的、所述节点的每个相邻节点,根据第k层输出的、所述节点的特征矩阵和所述相邻节点的特征矩阵,计算所述节点对应的序列中的元素与所述相邻节点对应的序列中的元素之间的关联关系,获得关联矩阵,其中,k为正整数;利用所述关联矩阵,分别对所述第k层输出的、所述节点的特征矩阵和所述相邻节点的特征矩阵进行变换,获得第一矩阵和第二矩阵;计算所述第k层输出的所述节点的特征矩阵与所述第一矩阵和第二矩阵之间的关联关系,获得所述节点的特征矩阵与所述相邻节点的特征矩阵之间的协同注意力编码结果;以及,对所述节点的所有相邻节点对应的协同注意力编码结果进行池化,获得所述图序列网络的第k+1层输出的、所述节点的特征矩阵;
获得所述图序列网络输出的每个节点的特征矩阵,以便利用输出的特征矩阵进行基于序列的分类预测,其中,输出的每个节点的特征矩阵中包括所述节点对应的序列中每个元素对应的、更新的向量。
2.根据权利要求1所述的序列化数据处理方法,还包括:
根据所述图序列网络输出的特征矩阵,确定用于预测的特征,其中,所述用于预测的特征是根据所述图中一个或多个节点的特征矩阵确定的;
将所述用于预测的输入特征输入到机器学习模型中,获得分类预测结果。
3.根据权利要求2所述的序列化数据处理方法,其中,所述将所述用于预测的输入特征输入到机器学习模型中,获得分类预测结果包括:
将所述用于预测的输入特征输入到机器学习模型中,获得所述一个或多个节点所涉及的序列中的元素的分类结果,以便根据每个元素的分类结果进行序列标注。
4.根据权利要求2所述的序列化数据处理方法,其中,所述将所述用于预测的输入特征输入到机器学习模型中,获得分类预测结果包括:
将所述用于预测的输入特征输入到机器学习模型中,获得对所述一个或多个节点所涉及的序列进行分类预测的结果;或者,对所述一个或多个节点所涉及的序列构成的对象进行分类预测的结果。
5.根据权利要求1所述的序列化数据处理方法,还包括:
将所述序列输入到编码器中,获得所述编码器输出的、序列中每个元素的初始的向量。
6.根据权利要求1所述的序列化数据处理方法,其中,所述序列中的元素为文本中的令牌,所述令牌包括字、词根、词缀中的至少一种。
7.根据权利要求1所述的序列化数据处理方法,其中,所述序列包括句子、短语、命名实体、名词短语中的一种或多种;
符合以下条件中的至少一个的多个节点为相邻的节点:来自同一个文档的多个句子对应的节点,具有相同的命名实体或名词短语的多个句子对应的多个节点,具有在预先获取的问题文本中出现的命名实体或名词短语的多个句子对应的节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010237454.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种免锁式施工防护栏
- 下一篇:图像分割方法及装置





