[发明专利]文本处理方法、模型训练方法、装置、设备及存储介质在审

申请号：	202211599089.9	申请日：	2022-12-12
公开（公告）号：	CN116306527A	公开（公告）日：	2023-06-23
发明（设计）人：	杨祎聪;李晓平;顾文斌;孙勇;刘志强	申请（专利权）人：	杭州恒生聚源信息技术有限公司;上海恒生聚源数据服务有限公司
主分类号：	G06F40/174	分类号：	G06F40/174;G06F40/289;G06F40/30
代理公司：	北京超凡宏宇专利代理事务所(特殊普通合伙) 11463	代理人：	张文娥
地址：	310018 浙江省杭州市杭州经济技术***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本处理方法模型训练装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种文本处理方法、模型训练方法、装置、设备及存储介质，涉及神经网络技术领域。通过采用添加有分隔标记的训练样本文本训练获取文本处理模型，由于训练样本文本标注有分隔标记的标签信息及位置信息，分隔标记的标签信息指分隔标记所处位置的文本是否需要合并，而分隔标记的标签信息根据训练样本文本中分隔标记所处位置的文本的真实语义所生成，其标签的准确性较高，从而基于训练样本文本所标注的分隔标记的标签信息及位置信息，训练得到的文本处理模型可用于对目标处理文本进行精确的合并处理。其中，训练样本文本可以是多行文本串接得到的，从而训练得到的文本处理模型可适用于对多行文本的合并处理，提升了多行文本合并处理的效率。

技术领域

本申请涉及神经网络技术领域，具体而言，涉及一种文本处理方法、模型训练方法、装置、设备及存储介质。

背景技术

在进行文本处理的过程中经常会遇到复杂表格合并的问题，尤其是针对跨页文本和无线表格文本，无法简单地从上下行间距、缩进等信息判断文本的合并关系。

现有技术中通常是将两两之间的文本是否合并作为一个二分类的任务，对于多行文本依次两两比对，分别判断两文本是否合并，从而得出最终的合并结果。因此，采用该方法进行文本合并的效率较低。

发明内容

本申请的目的在于，针对上述现有技术中的不足，提供一种文本处理方法、模型训练方法、装置、设备及存储介质，以便于解决现有技术中存在的文本合并处理效率较低的问题。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供了一种文本处理方法，包括：

读取待处理文件中的至少一个单元格的文本；

对所述至少一个单元格的文本添加分隔标记，得到目标处理文本；

将所述目标处理文本输入预先训练的文本处理模型中，识别所述目标处理文本中的各分隔标记所分割的文本是否需要合并，并根据识别结果对所述目标处理文本进行合并处理，得到至少一个目标文本；所述文本处理模型采用具有标注信息的训练样本文本训练得到，标注信息包括添加至训练样本文本中的分隔标记的标签信息、以及分隔标记的位置，所述标签信息基于所述训练样本文本中分割标记所处位置的文本的真实语义生成。

可选地，所述对所述至少一个单元格的文本添加分隔标记，得到目标处理文本，包括：

在各相邻的单元格的文本之间添加分隔标记，得到目标处理文本。

可选地，所述对所述至少一个单元格的文本添加分隔标记，得到目标处理文本，包括：

在各相邻的单元格的文本之间添加分隔标记，并在各单元格内的文本之间添加分隔标记，得到目标处理文本。

可选地，所述在各单元格内的文本之间添加分隔标记，包括：

在各单元格内的文本的至少一个随机位置插入分隔标记，得到所述目标处理文本。

可选地，所述在各单元格内的文本之间添加分隔标记，包括：

对单元格内的文本进行分词处理，得到分词处理结果；

根据所述分词处理结果确定所述单元格内的文本中的至少一个完整词语；

从所述至少一个完整词语中确定至少一个目标词语；

在各所述目标词语内添加分隔标记。

第二方面，本申请实施例提供了一种文本处理模型训练方法，包括：