[发明专利]文本数据的保密处理方法和装置在审
| 申请号: | 202111617403.7 | 申请日: | 2021-12-28 |
| 公开(公告)号: | CN113987592A | 公开(公告)日: | 2022-01-28 |
| 发明(设计)人: | 崔世文;孟昌华;李志峰;王维强 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
| 主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F40/30;G06K9/62 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆 |
| 地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 数据 保密 处理 方法 装置 | ||
1.文本数据的保密处理方法,其中,包括:
得到原始文本数据;
将所述原始文本数据输入预先训练的文本生成模型,得到该文本生成模型输出的相似文本数据;该相似文本数据与原始文本数据的文本内容不同,但,该相似文本数据与原始文本数据的语义相似度大于预定值;
提供所述相似文本数据。
2.根据权利要求1所述的方法,其中,
所述文本生成模型的训练方法包括如下中的至少一项:
针对第一文本数据,将该第一文本数据中的至少一个字符替换为该字符的同义字符,得到第一变换数据,利用该第一文本数据及该第一变换数据作为训练样本训练所述文本生成模型;
针对第二文本数据,在该第二文本数据中增加或者减少非语义字符,得到第二变换数据,利用该第二文本数据及该第二变换数据作为训练样本训练所述文本生成模型;其中,非语义字符为不改变语义的字符;
针对第三文本数据,改变该第三文本数据中至少一处文本内容的语序,得到第三变换数据,利用该第三文本数据及该第三变换数据作为训练样本训练所述文本生成模型。
3.根据权利要求1所述的方法,其中,
所述得到该文本生成模型输出的相似文本数据,包括:得到该文本生成模型输出的至少两个版本的相似文本数据;不同版本的相似文本数据的文本内容不同;
所述提供所述相似文本数据,包括:
将各个阅读者划分在至少两个分组中;
将至少两个版本的相似文本数据分别分发给至少两个分组。
4.根据权利要求3所述的方法,该方法进一步包括:
获取被泄露的相似文本数据;
根据被泄露的相似文本数据的版本,确定该被泄露的相似文本数据被分发到的分组;
将该分组中的阅读者确定为泄露方。
5.根据权利要求1所述的方法,在所述得到该文本生成模型输出的相似文本数据之后,并在所述提供所述相似文本数据之前,进一步包括:
根据原始文本数据的语义,对文本生成模型输出的相似文本数据进行修正,以增加该相似文本数据与原始文本数据的语义相似度;
所述提供所述相似文本数据,包括:提供修正后的相似文本数据。
6.文本数据的保密处理装置,其中,包括:
原始文本获取模块,配置为得到原始文本数据;
文本生成模型,配置为对输入的所述原始文本数据进行模型处理,输出相似文本数据;该相似文本数据与原始文本数据的文本内容不同,但,该相似文本数据与原始文本数据的语义相似度大于预定值;
分发模块,配置为提供所述相似文本数据。
7.根据权利要求6所述的装置,其中,所述文本生成模型在训练阶段被配置为执行如下中的至少一项:
接收第一训练样本,该第一训练样本包括第一文本数据及第一变换数据,其中第一变换数据是将该第一文本数据中的至少一个字符替换为该字符的同义字符后得到的,对该第一训练样本进行学习;
接收第二训练样本,该第二训练样本包括第二文本数据及第二变换数据,其中第二变换数据是在该第二文本数据中增加或者减少非语义字符后得到的,对该第二训练样本进行学习;
接收第三训练样本,该第三训练样本包括第三文本数据及第三变换数据,其中第三变换数据是改变该第三文本数据中至少一处文本内容的语序之后得到的,对该第三训练样本进行学习;其中,第三文本数据及该第三变换数据的语义相似度大于预定值。
8.根据权利要求6所述的装置,其中,所述文本生成模型被配置为执行:得到该文本生成模型输出的至少两个版本的相似文本数据;不同版本的相似文本数据的文本内容不同;
所述分发模块,被配置为执行将各个阅读者划分在至少两个分组中;将至少两个版本的相似文本数据分别分发给至少两个分组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111617403.7/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





