[发明专利]邮件分类方法、装置、设备及存储介质在审
申请号: | 201910732924.3 | 申请日: | 2019-08-09 |
公开(公告)号: | CN110505144A | 公开(公告)日: | 2019-11-26 |
发明(设计)人: | 万里霞;潘浩;梁苑文;张荣圣;蒋杰 | 申请(专利权)人: | 世纪龙信息网络有限责任公司 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;G06K9/62;G06F17/27;G06F16/35 |
代理公司: | 44224 广州华进联合专利商标代理有限公司 | 代理人: | 黄丽霞<国际申请>=<国际公布>=<进入 |
地址: | 510630 广东省广州市天河*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类邮件 集成学习 类别标签 邮件分类 邮件文本 计算机技术领域 机器学习模型 集成学习算法 存储介质 分类结果 输出 申请 融合 | ||
1.一种邮件分类方法,其特征在于,所述方法包括:
获取待分类邮件,所述待分类邮件包括邮件文本;
根据集成学习模型对所述邮件文本进行识别,获取所述集成学习模型输出的类别标签,所述集成学习模型是由集成学习算法融合多个机器学习模型得到的;
根据所述类别标签,输出所述待分类邮件的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述根据集成学习模型对所述邮件文本进行识别之前,所述方法还包括:
将所述邮件文本输入至词袋模型,获取所述词袋模型输出的所述邮件文本的文本向量;
对应地,根据集成学习模型对所述邮件文本进行识别,包括:
将所述邮件文本的文本向量输入至所述集成学习模型。
3.根据权利要求2所述的方法,其特征在于,所述将所述邮件文本输入至所述词袋模型之前,所述方法还包括:
对所述邮件文本进行分词处理,得到所述邮件文本包括的多个词语;
对应地,所述将所述邮件文本输入至所述词袋模型,包括:
将所述邮件文本包括的多个词语输入至所述词袋模型。
4.根据权利要求1所述的方法,其特征在于,所述根据集成学习模型对所述邮件文本进行识别之前,所述方法还包括:
获取多个训练文本向量;
利用所述多个训练文本向量对多个机器学习模型进行训练,获得训练后的多个机器学习模型;
利用堆栈泛化集成学习算法将所述训练后的多个机器学习模型进行融合,获得所述集成学习模型。
5.根据权利要求4所述的方法,其特征在于,所述多个机器学习模型包括:
线性分类支持向量机模型、极端梯度提升决策树分类模型、梯度提升决策树分类模型和随机森林分类模型中的至少两个。
6.根据权利要求2所述的方法,其特征在于,所述词袋模型和所述集成学习模型由对象序列化工具存储为本地文件,所述将所述邮件文本输入至词袋模型之前,所述方法还包括:
利用对象序列化工具加载所述本地文件。
7.根据权利要求1所述的方法,其特征在于,所述获取所述待分类邮件,包括:
利用套接字多进程通信方式,接收多个电子邮件客户端并行发送的多个所述待分类邮件。
8.一种邮件分类装置,其特征在于,所述装置包括:
第一获取模块,用于获取待分类邮件,所述待分类邮件包括邮件文本;
识别模块,用于根据集成学习模型对所述邮件文本进行识别,获取所述集成学习模型输出的类别标签,所述集成学习模型是由集成学习算法融合多个机器学习模型得到的;
输出模块,用于根据所述类别标签,输出所述待分类邮件的分类结果。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1至7任一所述的邮件分类方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7任一所述的邮件分类方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于世纪龙信息网络有限责任公司,未经世纪龙信息网络有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910732924.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于发送目标视频的方法与设备
- 下一篇:一种通讯录添加方法及终端