[发明专利]一种基于开放接口实时脱敏的方法、装置及系统有效
| 申请号: | 201910729161.7 | 申请日: | 2019-08-07 |
| 公开(公告)号: | CN110704861B | 公开(公告)日: | 2023-03-24 |
| 发明(设计)人: | 胡佳;吴荣富 | 申请(专利权)人: | 荣邦科技有限公司;中国银联股份有限公司 |
| 主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F16/35;G06F16/31;G06F16/33 |
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
| 地址: | 510075 广东省广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 开放 接口 实时 方法 装置 系统 | ||
本发明公开一种基于开放接口实时脱敏的方法及装置,本装置用于实现本方法,本方法包括服务器采集敏感词,对其分类标记并存储生成本地脱敏词库;定义脱敏词库的脱敏工具类接口,其中包括初始化接口、脱敏匹配接口、脱敏处理接口;输入文本至服务器的开放接口,从本地脱敏词库提取敏感词,将其按根对象对应多叉树结构缓存至本地内存生成脱敏词库;调用初始化接口,初始化敏感词缓存的根对象;通过脱敏匹配接口调用脱敏算法执行器,将文本基于脱敏词库遍历匹配,获取相匹配的敏感词;将所获取的所有敏感词打包成无序无重复的敏感词集合,调用脱敏处理接口将敏感词集合在文本中进行脱敏处理。本发明提供一种实时脱敏的高性能支持的数据脱敏方法。
技术领域
本发明涉及文本处理领域,特别涉及一种基于开放接口实时脱敏的方法、装置及系统。
背景技术
数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形。基于互联网平台对用户提交文本进行敏感词的脱敏,当用户有文本需要脱敏时,会调用接口上传文本,此时,利用实时数据脱敏工具对文本进行梳洗,过滤掉其中敏感词。
现有的互联网平台中,每天有大量的数据提交入库,一些广告、政治、污秽的语句经常被提交到平台数据库中。一旦数据入库后再进行数据处理很繁琐,人工成本非常大,长久不处理也增加了平台的维护成本。而由于互联网平台高并发大数据中敏感词难以处理,平台数据库存有敏感词列表。这些敏感词在存在违反国家互联网管理的若干条款,并同时也制约了互联网生态圈的协同发展。
敏感词脱敏是一种高效的数据梳洗行为,目的在于实现互联网平台的数据脱敏清洗。而当前互联网平台数据流转极其复杂,并发量非常庞大,需要一种能实时脱敏且高性能支持的数据脱敏方法才能完成数据梳洗和脱敏。
发明内容
本发明的主要目的是提出一种基于开放接口实时脱敏的方法,旨在克服以上问题。
为实现上述目的,本发明提出的一种基于开放接口实时脱敏的方法,包括如下步骤:
S10服务器从现有脱敏词库、各网站敏感词列表采集敏感词,对其分类标记并持久化存储生成本地脱敏词库;
S20定义脱敏词库的脱敏工具类接口,其中脱敏工具类接口包括初始化接口、脱敏匹配接口、脱敏处理接口;
S30输入待脱敏文本至服务器的开放接口,调用脱敏词库系统底层接口,通过脱敏词库系统底层接口从本地脱敏词库提取敏感词,将所提取的敏感词按根对象对应多叉树的结构缓存至本地内存生成脱敏词库;
S40调用初始化接口,初始化敏感词缓存的根对象;
S50通过脱敏匹配接口调用脱敏算法执行器,将待脱敏文本基于脱敏词库遍历匹配,获取相匹配的敏感词;
S60将所获取的所有敏感词打包成无序无重复的敏感词集合,调用脱敏处理接口将敏感词集合在待脱敏文本中进行脱敏处理。
优选地,所述脱敏算法执行器包括确定有穷自动机DFA算法,所述DFA算法具有多叉树模型结构,所述多叉树模型是由根节点及其子节点模型组成,所述根节点是以根对象为节点,所述子节点模型是按其他字与该字组词的亲近关系层层分解为根节点的叶节点构成,当脱敏算法执行器采用确定有穷自动机DFA算法时,所述S50中通过脱敏匹配接口调用脱敏算法执行器,将待脱敏文本基于脱敏词库遍历匹配,获取相匹配的敏感词的方法具体为:
S501按文本的语句顺序读取文本,将读取到的当前字与多叉树模型的根节点进行敏感词匹配;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于荣邦科技有限公司;中国银联股份有限公司,未经荣邦科技有限公司;中国银联股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910729161.7/2.html,转载请声明来源钻瓜专利网。





