[发明专利]文本数据处理方法及装置有效
申请号: | 202010088116.0 | 申请日: | 2020-02-12 |
公开(公告)号: | CN111309908B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 马良庄 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33 |
代理公司: | 北京永新同创知识产权代理有限公司 11376 | 代理人: | 林锦辉;刘景峰 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 数据处理 方法 装置 | ||
1.一种文本数据处理方法,包括:
对作为训练数据的第一文本数据进行随机地遮蔽处理;
将经过遮蔽处理后的第一文本数据提供给文本预测模型,以根据所述第一文本数据中的各个遮蔽部分的上下文来得到各个遮蔽部分的至少一个预测文本;
从所述至少一个预测文本中确定多个目标预测文本;
使用所述目标预测文本来分别替换对应的遮蔽部分,以得到对应的多个第二文本数据;
将所述多个第二文本数据增加至训练数据集,
其中,从所述至少一个预测文本中确定多个目标预测文本包括:
在文本数据优化及数据增强的应用场景下,基于文本评价维度特征集,对所述至少一个预测文本进行文本评价,其中,所述文本评价维度特征集包括以下特征中的至少一种:连贯性、逻辑性、是否存在歧义、文字优美程度以及修辞手法运用;
基于所述至少一个预测文本的文本评价结果,从所述至少一个预测文本中确定多个目标预测文本。
2.如权利要求1所述的方法,其中,从所述至少一个预测文本中确定多个目标预测文本包括:
基于各个预测文本的得分,从所述至少一个预测文本中确定多个目标预测文本;或者
从所述至少一个预测文本中随机选择多个目标预测文本。
3.如权利要求1所述的方法,其中,基于文本评价维度集,对所述至少一个预测文本进行文本评价包括:
将所述至少一个预测文本提供给文本评价模型来进行文本评价,所述文本评价维度特征集包括所述文本评价模型的评价维度特征。
4.如权利要求3所述的方法,其中,所述文本评价维度特征集由用户确定。
5.如权利要求1所述的方法,其中,各个遮蔽部分中包括的单词数量不超过指定数量。
6.如权利要求1所述的方法,其中,所述文本预测模型包括输出连接有分类层的BERT模型、ULMFiT模型以及Open-AI变换器模型中的一种。
7.一种文本数据处理装置,包括:
遮蔽处理单元,对作为训练数据的第一文本数据进行随机地遮蔽处理;
文本预测单元,将经过遮蔽处理后的第一文本数据提供给文本预测模型,以根据所述第一文本数据中的各个遮蔽部分的上下文来得到各个遮蔽部分的至少一个预测文本;
目标预测文本确定单元,从所述至少一个预测文本中确定多个目标预测文本;
预测文本替换单元,使用所述目标预测文本来分别替换对应的遮蔽部分,以得到对应的多个第二文本数据;
训练数据增加单元,将所述至少一个第二文本数据增加至训练数据集,
所述目标预测文本确定单元包括:
文本评价模块,在文本数据优化及数据增强的应用场景下,基于文本评价维度特征集,对所述至少一个预测文本进行文本评价,其中,所述文本评价维度特征集包括以下特征中的至少一种:连贯性、逻辑性、是否存在歧义、文字优美程度以及修辞手法运用;以及
目标预测文本确定模块,基于所述至少一个预测文本的文本评价结果,从所述至少一个预测文本中确定多个目标预测文本。
8.如权利要求7所述的装置,其中,所述目标预测文本确定单元:
基于各个预测文本的得分,从所述至少一个预测文本中确定目标预测文本;或者
从所述至少一个预测文本中随机选择目标预测文本。
9.如权利要求7所述的装置,其中,所述文本评价模块:
将所述至少一个预测文本提供给文本评价模型来进行文本评价,所述文本评价维度特征集包括所述文本评价模型的评价维度特征。
10.一种电子设备,包括:
至少一个处理器,以及
与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求1到6中任一所述的方法。
11.一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如权利要求1到6中任一所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010088116.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:下行链路控制信道设计方法
- 下一篇:基于条件变分自编码的地壳模型构造方法