[发明专利]一种基于差分隐私联合学习的垃圾短信识别方法及系统在审

专利信息
申请号: 201911284688.X 申请日: 2019-12-13
公开(公告)号: CN110955778A 公开(公告)日: 2020-04-03
发明(设计)人: 阳文斯;叶可江;须成忠 申请(专利权)人: 中国科学院深圳先进技术研究院
主分类号: G06F16/35 分类号: G06F16/35;G06F40/30;G06F40/284;G06N3/04
代理公司: 深圳市科进知识产权代理事务所(普通合伙) 44316 代理人: 曹卫良
地址: 518055 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 隐私 联合 学习 垃圾 短信 识别 方法 系统
【说明书】:

发明涉及无线通讯技术领域,特别涉及一种基于差分隐私联合学习的垃圾短信识别方法及系统;在本发明内,手机客户端无需上传自己的短信数据至数据中心,利用手机本地短信数据集训练基于卷积神经网络的分类模型,然后将本地模型参数上传至服务器,服务器整合参与联合学习的手机客户端垃圾短信识别分类模型的参数,构建共享垃圾短信分类模型,加入差分隐私的联合学习保证了即使在共享参数的情况下也不泄露参与联合学习的手机用户信息,进一步保护手机客户端的数据隐私性和敏感性。

技术领域

本发明涉及无线通讯技术领域,特别涉及一种基于差分隐私联合学习的垃圾短信识别方法及系统。

背景技术

随着通讯时代的到来,无线通信服务功能的不断增强和完善,手机成为人们日常通讯必不可少的工具之一。

手机短信也以其操作简单、方便快捷等诸多优点,成为用户间沟通的桥梁之一,但手机短信为用户提供便捷消息服务的同时,随之而来的诸多垃圾短信问题也日益严峻,广告信息、欺诈短信、谣言散布等短信内容,已经严重影响到人们正常生活、运营商形象乃至社会稳定。因此,研究垃圾短信的识别与处理对维护人民的正常生活和社会稳定具有重要意义。

目前传统的垃圾短信识别系统收集用户的短信内容建模,但是很多短信内容涉及用户的隐私问题,致使在收集短信内容建模过程中有一定的困难,数据量的不足以及一些垃圾短信识别系统的特征提取能力不强导致模型的分类效果不佳。

发明内容

本发明主要解决的技术问题是提供一种基于差分隐私联合学习的垃圾短信识别方法,是一种去中心化的垃圾短信识别技术,在不共享手机客户端的本地短信内容的情况下,可借助其他手机客户端提供的垃圾分类模型参数进行协同训练,构建共享垃圾短信分类模型,其具有更强的特征提取能力,在保护用户隐私的同时有效提高垃圾短信的识别准确率;还提供了一种基于差分隐私联合学习的垃圾短信识别系统。

为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于差分隐私联合学习的垃圾短信识别方法,其中,包括如下步骤:

步骤S1、各个手机客户端输入训练数据,对手机客户端内的短信内容进行数据清洗处理;

步骤S2、再从服务器下载初始化的底层模型,在该底层模型内提取出短信文本的特征信息和语义信息,从而进行分类构建垃圾短信检测模型;

步骤S3、运用手机客户端的本地的数据集对垃圾短信检测模型的参数进行训练更新,并将更新后的垃圾短信检测模型的参数上传至服务器内,服务器基于差分隐私通过整合参与所有的手机客户端上传的参数构建共享垃圾短信分类模型。

作为本发明的一种改进,步骤S1包括如下步骤:

步骤S11、对短信内容进行数据清洗,将短信内容中的一些特殊元素过滤;

步骤S12、将短信内容的词生成词典,词典中的每个词对应一个序号,按照原始短信内容中词的顺序,将短信里的词替换为所对应的序号。

作为本发明的进一步改进,在步骤S12内,如果短信内容的词大于设定的最大长度的词,则进行剪切,如果短信内容的词小于设定的最大长度的词,则用0进行填充来获得词向量。

作为本发明的更进一步改进,在步骤S3内,每个手机客户端运用本地的数据集对垃圾短信检测模型的参数进行训练更新,计算出垃圾短信检测模型的变化,再对垃圾短信检测模型的变化量进行归一化算出归一化值,然后将垃圾短信检测模型的变化量和归一化值传给服务器。

作为本发明的更进一步改进,在步骤S3内,服务器在共享垃圾短信分类模型内进行隐私模式计算:计算当前轮数的隐私损失,如果隐私预算已消耗完,则直接返回当前的共享垃圾短信分类模型,同时各手机客户端基于共享垃圾短信分类模型区分出正常短信和垃圾短信。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911284688.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top