[发明专利]一种多模态的垃圾邮件识别方法在审
申请号: | 201811439940.5 | 申请日: | 2018-11-29 |
公开(公告)号: | CN109800852A | 公开(公告)日: | 2019-05-24 |
发明(设计)人: | 刘启和;杨红;周世杰;吴春江 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种多模态的垃圾邮件识别方法,属于垃圾邮件识别领域。针对传统的垃圾邮件过滤方法只分析邮件的单一模态信息,难以做到对文本垃圾邮件、图像垃圾邮件以及文本图像混合型垃圾邮件进行统一处理的有效识别过滤,且其识别的精度还有待提高的问题。本发明采用深度学习技术,提出了一种多模型融合的多模态架构。针对邮件头信息、邮件文本信息和邮件图像信息分别设计了用于邮件头、文本和图像分类的三个独立的神经网络模型,即FNN,CLstmNN(由CNN与LSTM组成)与CNN网络组成,将邮件头、邮件文本及邮件图像多模态信息相结合的方法,对文本垃圾邮件、图像垃圾邮件以及图像文本混合型垃圾邮件进行统一处理识别,提高对垃圾邮件的识别精度。 | ||
搜索关键词: | 垃圾邮件 垃圾邮件识别 多模态 图像垃圾邮件 统一处理 邮件图像 邮件文本 文本 邮件头 垃圾邮件过滤 神经网络模型 多模态信息 邮件头信息 分析邮件 模态信息 模型融合 图像分类 图像文本 网络组成 文本图像 有效识别 传统的 过滤 架构 学习 | ||
【主权项】:
1.一种多模态的垃圾邮件识别方法,其特征在于,包括下列步骤:邮件数据预处理:对邮件数据集进行分割,获取得到包含Null值的邮件头,邮件文本与邮件图像数据集;其中每封邮件包含的模态信息存在以下几种情况:(1)只包含邮件头信息;(2)只包含邮件头与邮件正文信息;(3)只包含邮件头与邮件图片信息;(4)包含邮件头,邮件文本,图片信息;针对(1),(2),(3)这几种缺失某些模态信息的情况,剔除掉为Null的部分,最终采集得到用于模型训练的邮件头数据集、邮件文本数据集和邮件图像数据集;获取三个最优分类模型:将预处理得到的无Null的邮件头、邮件文本和邮件图像数据集输入到设计的FNN,CLstmNN(CNN与LSTM相结合得到)和CNN模型中进行训练,优化,得到三个最优的模型;获取最优融合模型:将预处理得到的包含Null值的三个数据集,输入到对应的最优分类模型中,得到分类概率数据集,输入到设计的融合模型中,训练优化得到最优的融合模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811439940.5/,转载请声明来源钻瓜专利网。