[发明专利]文本数据处理方法及装置有效
申请号: | 202010088116.0 | 申请日: | 2020-02-12 |
公开(公告)号: | CN111309908B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 马良庄 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33 |
代理公司: | 北京永新同创知识产权代理有限公司 11376 | 代理人: | 林锦辉;刘景峰 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 数据处理 方法 装置 | ||
本说明书实施例提供了一种文本数据处理方法及装置,该方法包括:对第一文本数据进行遮蔽处理,并将经过遮蔽处理后的第一文本数据提供给文本预测模型,以根据文本数据中的各个遮蔽部分的上下文来得到各个遮蔽部分的至少一个预测文本,再使用所得到的至少一个预测文本来替换对应的遮蔽部分,以得到至少一个第二文本数据。
技术领域
本说明书实施例涉及机器学习技术领域,具体地,涉及文本数据处理方法及装置。
背景技术
文本数据是包括新闻、论文以及小说等多种类型的文本类型的数据,这些文本数据根据类型不同可以被应用于多种应用场景,比如,作为机器学习模型的训练数据。
在不同的应用场景下文本数据的作用不同,对文本数据的处理方式也会不同。比如,在一些应用场景中需要对现有的文本数据进行修改处理,以得到新的文本数据。当然,在不同的应用场景下所得到的新的文本数据的作用不同。比如,对于作为训练数据的文本数据,增加新的文本数据可以用来增加训练数据的数量,因为在机器模型训练过程中需要用到大量的文本数据,尤其是配置有复杂网络的机器模型,需要更多的训练数据进行训练才能避免机器模型出现欠拟合或过拟合的情况。目前,获取新的文本数据的方式主要是对现有文本数据中的单词或者词语进行随机删除或同义词替换等。
发明内容
鉴于上述,本说明书实施例提供了一种文本数据处理方法及装置。在该方法中,对第一文本数据进行遮蔽处理,将经过遮蔽处理后的第一文本数据提供给文本预测模型,以根据文本数据中的各个遮蔽部分的上下文来得到各个遮蔽部分的至少一个预测文本,使用所得到的至少一个预测文本来替换对应的遮蔽部分,以得到至少一个第二文本数据。在该方法中,使用文本预测模型得到的预测文本是根据上下文得到的,这样得到的预测文本与上下文的关联程度更高,基于这样的预测文本得到的第二文本数据的错误及歧义大大减少甚至没有,并且语句更连贯。
根据本说明书实施例的一个方面,提供了一种文本数据处理方法,包括:对第一文本数据进行遮蔽处理;将经过遮蔽处理后的第一文本数据提供给文本预测模型,以根据所述文本数据中的各个遮蔽部分的上下文来得到各个遮蔽部分的至少一个预测文本;以及使用所得到的至少一个预测文本来替换对应的遮蔽部分,以得到至少一个第二文本数据。
可选地,在上述方面的一个示例中,还包括:从所述至少一个预测文本中确定目标预测文本,使用所得到的至少一个预测文本来替换所述遮蔽部分,以得到至少一个第二文本数据包括:使用所述目标预测文本来替换对应的遮蔽部分,以得到至少一个第二文本数据。
可选地,在上述方面的一个示例中,从所述至少一个预测文本中确定目标预测文本包括:基于各个预测文本的得分,从所述至少一个预测文本中确定目标预测文本;或者从所述至少一个预测文本中随机选择目标预测文本。
可选地,在上述方面的一个示例中,所述第一文本数据是训练数据,所述方法还包括:将所述至少一个第二文本数据增加至训练数据集。
可选地,在上述方面的一个示例中,从所述至少一个预测文本中确定目标预测文本包括:基于文本数据处理的应用场景要求,从所述至少一个预测文本中确定目标预测文本。
可选地,在上述方面的一个示例中,所述应用场景包括文本数据优化,基于文本数据处理的应用场景要求,从所述至少一个预测文本中确定目标预测文本包括:基于文本评价维度特征集,对所述至少一个预测文本进行文本评价;以及基于所述至少一个预测文本的文本评价结果,从所述至少一个预测文本中确定目标预测文本。
可选地,在上述方面的一个示例中,基于文本评价维度集,对所述至少一个预测文本进行文本评价包括:将所述至少一个预测文本提供给文本评价模型来进行文本评价,所述文本评价维度特征集包括所述文本评价模型的评价维度特征。
可选地,在上述方面的一个示例中,所述文本评价维度特征集由用户确定。
可选地,在上述方面的一个示例中,各个遮蔽部分中包括的单词数量不超过指定数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010088116.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:下行链路控制信道设计方法
- 下一篇:基于条件变分自编码的地壳模型构造方法