[发明专利]一种变种文本还原方法、装置以及设备在审
| 申请号: | 202011402808.4 | 申请日: | 2020-12-04 |
| 公开(公告)号: | CN112541350A | 公开(公告)日: | 2021-03-23 |
| 发明(设计)人: | 简葳玙;杨舟 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 北京君慧知识产权代理事务所(普通合伙) 11716 | 代理人: | 吴绍群 |
| 地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 变种 文本 还原 方法 装置 以及 设备 | ||
本说明书实施例公开了一种变种文本还原方法、装置以及设备。方案包括:获取包含变种内容的源文本;通过基于注意力机制的机器学习模型,对源文本进行处理,得到源文本对应的上下文向量和注意力分布;对上下文向量进行解析,得到中间结果;确定针对注意力分布的指针生成网络的拷贝指针;通过拷贝指针,根据源文本中的至少部分内容或者注意力分布对中间结果进行调整,得到源文本对应的还原文本。
技术领域
本说明书涉及风险控制技术领域,尤其涉及一种变种文本还原方法、装置以及设备。
背景技术
近年来,随着移动互联网的兴起,用户产生大量的文章和评论。但是,随之而来的是大量不良内容从各种渠道流入到各个平台评论区,如果不能有效地识别并拦截这些不良内容,会给用户带来较差的体验和深远的影响。比如,用户时常会看到不良广告,其中包含了黄暴内容和诈骗内容等,这些内容尤其对未成年人和老年人等弱势群体带来了不可磨灭的影响和深深的危害,严重损害了个人利益和社会效益。因此,各大互联网公司都需要部署识别不良内容的安全防御系统,识别并拦截这些不良内容,为用户提供良好的体验,保护用户和整个社会。
在实际应用中,一些恶意方为了绕开安全防御系统,会采用变异的方法来产生变种文本,绕过安全防御体系,变种文本对原来的文本的语义改变甚微,通常不会影响人对原来的文本所表达含义的理解。
基于此,需要能够有效防御变种文本的方案。
发明内容
本说明书一个或多个实施例提供变种文本还原方法、装置、设备以及存储介质,用以解决如下技术问题:需要能够有效防御变种文本的方案。
为解决上述技术问题,本说明书一个或多个实施例是这样实现的:
本说明书一个或多个实施例提供的一种变种文本还原方法,包括:
获取包含变种内容的源文本;
通过基于注意力机制的机器学习模型,对所述源文本进行处理,得到所述源文本对应的上下文向量和注意力分布;
对所述上下文向量进行解析,得到中间结果;
确定针对所述注意力分布的指针生成网络的拷贝指针;
通过所述拷贝指针,根据所述源文本中的至少部分内容或者所述注意力分布对所述中间结果进行调整,得到所述源文本对应的还原文本。
本说明书一个或多个实施例提供的一种变种文本还原装置,包括:
获取模块,获取包含变种内容的源文本;
处理模块,通过基于注意力机制的机器学习模型,对所述源文本进行处理,得到所述源文本对应的上下文向量和注意力分布;
解析模块,对所述上下文向量进行解析,得到中间结果;
确定模块,确定针对所述注意力分布的指针生成网络的拷贝指针;
调整模块,通过所述拷贝指针,根据所述源文本中的至少部分内容或者所述注意力分布对所述中间结果进行调整,得到所述源文本对应的还原文本。
本说明书一个或多个实施例提供的一种变种文本还原设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取包含变种内容的源文本;
通过基于注意力机制的机器学习模型,对所述源文本进行处理,得到所述源文本对应的上下文向量和注意力分布;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011402808.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种深基坑混凝土浇筑溜槽
- 下一篇:一种汽车发动机检测用固定组件





