[发明专利]一种文本数据处理方法、装置和相关设备在审
申请号: | 202110400491.9 | 申请日: | 2021-04-14 |
公开(公告)号: | CN113705552A | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 刘皓 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 数据处理 方法 装置 相关 设备 | ||
1.一种文本数据处理方法,其特征在于,包括:
获取携带样本训练标签的样本图片,对所述训练样本标签所指示的训练文本信息进行文本切分,得到用于训练初始网络模型的第一样本碎片和第二样本碎片;所述第二样本碎片为所述第一样本碎片的下一样本碎片;
将所述第一样本碎片的第一样本文本特征与所述样本图片的样本图像特征输入所述初始网络模型中的递归注意力网络,通过所述递归注意力网络确定所述第一样本碎片与所述样本图片之间的第一图文关系特征,基于所述第一图文关系特征输出所述第一样本碎片的第一预测文本,将所述第一预测文本添加至所述初始网络模型中的记忆网络;
将所述记忆网络中所存储的所述第一预测文本作为所述第二样本碎片的训练辅助文本,将所述训练辅助文本所对应的所述第一样本文本特征、所述第二样本文本特征、以及所述样本图像特征输入所述递归注意力网络,通过所述递归注意力网络确定所述第二样本碎片与所述样本图片之间的第二图文关系特征,基于所述第二图文关系特征输出所述第二样本碎片的第二预测文本,将所述第二预测文本添加至所述记忆网络;
基于所述记忆网络中的所述第一预测文本和所述第二预测文本,确定所述训练文本信息的样本预测标签,基于所述样本训练标签和所述样本预测标签,对所述初始网络模型进行迭代训练,将迭代训练后的初始网络模型作为用于对目标图片进行文本识别的目标网络模型。
2.根据权利要求1所述的方法,其特征在于,所述获取携带样本训练标签的样本图片,对所述训练样本标签所指示的训练文本信息进行文本切分,得到用于训练初始网络模型的第一样本碎片和第二样本碎片,包括:
获取携带样本训练标签的样本图片,基于文本切分参数对所述训练样本标签所指示的训练文本信息进行文本切分,得到所述训练文本信息的样本碎片集;所述样本碎片集用于存储对所述训练文本信息进行文本切分所得到的所有样本碎片;一个样本碎片对应一个样本切分标识;一个样本切分标识用于表征一个样本碎片在所述训练文本信息中的碎片位置;
基于每个样本碎片的样本切分标识,从所述样本碎片集中获取用于训练初始网络模型的第一样本碎片,基于所述第一样本碎片在所述训练文本信息中的碎片位置,将所述第一样本碎片的下一样本碎片作为第二样本碎片。
3.根据权利要求1所述的方法,其特征在于,所述初始网络模型包含第一样本分支模型和第二样本分支模型;所述第二样本分支模型包括语义提取网络;所述方法还包括:
通过所述第一样本分支模型提取所述样本图片的样本图像特性;
通过所述语义提取网络确定所述第一样本碎片的第一样本文本特征,且通过所述语义提取网络确定所述第二样本碎片的第二样本文本特征。
4.根据权利要求3所述的方法,其特征在于,所述通过所述语义提取网络确定所述第一样本碎片的第一样本文本特征,且通过所述语义提取网络确定所述第二样本碎片的第二样本文本特征,包括:
通过所述语义提取网络,提取所述训练文本信息的训练文本特征;
基于所述第一样本碎片在所述训练文本信息中的碎片位置,在所述训练文本特征中确定所述第一样本碎片的碎片文本特征,且基于所述第二样本碎片在所述训练文本信息中的碎片位置,在所述训练文本特征中确定所述第二样本碎片的碎片文本特征;
将所述第一样本碎片的碎片位置和所述第一样本碎片中的碎片元素的元素位置作为所述第一样本碎片的第一相对编码位置信息,基于所述第一相对编码位置信息对所述第一样本碎片进行相对编码,得到所述第一样本碎片的相对位置特征,基于所述第一样本碎片的碎片文本特征和所述第一样本碎片的相对位置特征,得到所述第一样本碎片的第一样本文本特征;
将所述第二样本碎片的碎片位置和所述第二样本碎片中的碎片元素的元素位置作为所述第一样本碎片的第二相对编码位置信息,基于所述第二相对编码位置信息对所述第二样本碎片进行相对编码,得到所述第二样本碎片的相对位置特征,基于所述第二样本碎片的碎片文本特征和所述第二样本碎片的相对位置特征,得到所述第二样本碎片的第二样本文本特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110400491.9/1.html,转载请声明来源钻瓜专利网。