[发明专利]一种变种文本还原方法、装置以及设备在审

申请号：	202011402808.4	申请日：	2020-12-04
公开（公告）号：	CN112541350A	公开（公告）日：	2021-03-23
发明（设计）人：	简葳玙;杨舟	申请（专利权）人：	支付宝（杭州）信息技术有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08;G06N20/00
代理公司：	北京君慧知识产权代理事务所(普通合伙) 11716	代理人：	吴绍群
地址：	310000 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种变种文本还原方法装置以及设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本说明书实施例公开了一种变种文本还原方法、装置以及设备。方案包括：获取包含变种内容的源文本；通过基于注意力机制的机器学习模型，对源文本进行处理，得到源文本对应的上下文向量和注意力分布；对上下文向量进行解析，得到中间结果；确定针对注意力分布的指针生成网络的拷贝指针；通过拷贝指针，根据源文本中的至少部分内容或者注意力分布对中间结果进行调整，得到源文本对应的还原文本。

技术领域

本说明书涉及风险控制技术领域，尤其涉及一种变种文本还原方法、装置以及设备。

背景技术

近年来，随着移动互联网的兴起，用户产生大量的文章和评论。但是，随之而来的是大量不良内容从各种渠道流入到各个平台评论区，如果不能有效地识别并拦截这些不良内容，会给用户带来较差的体验和深远的影响。比如，用户时常会看到不良广告，其中包含了黄暴内容和诈骗内容等，这些内容尤其对未成年人和老年人等弱势群体带来了不可磨灭的影响和深深的危害，严重损害了个人利益和社会效益。因此，各大互联网公司都需要部署识别不良内容的安全防御系统，识别并拦截这些不良内容，为用户提供良好的体验，保护用户和整个社会。

在实际应用中，一些恶意方为了绕开安全防御系统，会采用变异的方法来产生变种文本，绕过安全防御体系，变种文本对原来的文本的语义改变甚微，通常不会影响人对原来的文本所表达含义的理解。

基于此，需要能够有效防御变种文本的方案。

发明内容

本说明书一个或多个实施例提供变种文本还原方法、装置、设备以及存储介质，用以解决如下技术问题：需要能够有效防御变种文本的方案。

为解决上述技术问题，本说明书一个或多个实施例是这样实现的：

本说明书一个或多个实施例提供的一种变种文本还原方法，包括：

获取包含变种内容的源文本；

通过基于注意力机制的机器学习模型，对所述源文本进行处理，得到所述源文本对应的上下文向量和注意力分布；

对所述上下文向量进行解析，得到中间结果；

确定针对所述注意力分布的指针生成网络的拷贝指针；

通过所述拷贝指针，根据所述源文本中的至少部分内容或者所述注意力分布对所述中间结果进行调整，得到所述源文本对应的还原文本。

本说明书一个或多个实施例提供的一种变种文本还原装置，包括：