[发明专利]邮件分类方法、装置、设备及存储介质在审

专利信息
申请号: 201910732924.3 申请日: 2019-08-09
公开(公告)号: CN110505144A 公开(公告)日: 2019-11-26
发明(设计)人: 万里霞;潘浩;梁苑文;张荣圣;蒋杰 申请(专利权)人: 世纪龙信息网络有限责任公司
主分类号: H04L12/58 分类号: H04L12/58;G06K9/62;G06F17/27;G06F16/35
代理公司: 44224 广州华进联合专利商标代理有限公司 代理人: 黄丽霞<国际申请>=<国际公布>=<进入
地址: 510630 广东省广州市天河*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 分类邮件 集成学习 类别标签 邮件分类 邮件文本 计算机技术领域 机器学习模型 集成学习算法 存储介质 分类结果 输出 申请 融合
【说明书】:

本申请公开了一种邮件分类方法、装置、设备及存储介质,属于计算机技术领域。该方法包括获取待分类邮件,该待分类邮件包括邮件文本;根据集成学习模型对该邮件文本进行识别,获取该集成学习模型输出的类别标签,该集成学习模型是由集成学习算法融合多个机器学习模型得到的;根据该类别标签,输出该待分类邮件的分类结果。本申请实施例提供的技术方案提高了邮件分类的精度。

技术领域

本申请涉及计算机技术领域,特别是涉及一种邮件分类方法、装置、设备及存储介质。

背景技术

通常情况下,用户的电子邮箱会收到各种类型邮件,如广告邮件、账单邮件、电子发票邮件、工作邮件、信安邮件和垃圾邮件等。随着时间的积累,邮件类型和数量不断增多,当用户查找指定类型的邮件时,需要耗费大量时间和精力去筛选。随之出现了对用户电子邮箱中的各种类型邮件进行分类的技术。

相关技术中,可以利用基于文本规则匹配的方法实现对各种类型邮件的分类。该方法具体操作是:对邮件文本进行分词,然后与现有规则词库进行匹配来识别各种类型邮件。

然而,该方案过度依赖于人工添加和更新规则,其中,人工添加和更新规则的过程容易出现人为失误,这些人为失误会导致规则词库中的规则不准确,继而影响利用规则词库对邮件进行分类的准确性,因此,利用相关技术对邮件进行分类存在着分类精度不高的问题。

发明内容

基于此,有必要对邮件分类精度不高的问题提供一种邮件分类的方法、装置、设备及存储介质。

第一方面,提供了一种邮件处理方法,该方法包括:

获取待分类邮件,该待分类邮件包括邮件文本;根据集成学习模型对该邮件文本进行识别,获取该集成学习模型输出的类别标签,该集成学习模型是由集成学习算法融合多个机器学习模型得到的;根据该类别标签,输出该待分类邮件的分类结果。

在其中一个实施例中,在根据该集成学习模型对邮件文本进行识别之前,该方法还包括:将邮件文本输入至词袋模型,获取该词袋模型输出的该邮件文本的文本向量;

对应地,根据该集成学习模型对该邮件文本进行识别,包括:将该邮件文本的文本向量输入至该集成学习模型。

在其中一个实施例中,在将该邮件文本输入至该词袋模型之前,该方法还包括:对该邮件文本进行分词处理,得到该邮件文本包括的多个词语;

对应地,将该邮件文本输入至该词袋模型,包括:将该邮件文本包括的多个词语输入至该词袋模型。

在其中一个实施例中,在根据该集成学习模型对该邮件文本进行识别之前,该方法还包括:获取多个训练文本向量;利用该多个训练文本向量对多个机器学习模型进行训练,获得训练后的多个机器学习模型;利用堆栈泛化成学习算法将该训练后的多个机器学习模型进行融合,获得该集成学习模型。

在其中一个实施例中,该多个机器学习模型包括:线性分类支持向量机模型、极端梯度提升决策树分类模型、梯度提升决策树分类模型和随机森林分类模型中的至少两个。

在其中一个实施例中,该词袋模型和该集成学习模型由对象序列化工具存储为本地文件,在将该邮件文本输入至该词袋模型之前,该方法还包括:利用该对象序列化工具加载该本地文件。

在其中一个实施例中,获取该待分类邮件,包括:利用套接字进程通信方式,接收多个电子邮件客户端并行发送的多个该待分类邮件。

第二方面,提供了一种邮件分类装置,该装置包括:

第一获取模块,用于获取待分类邮件,该待分类邮件包括邮件文本;

识别模块,用于根据集成学习模型对邮件文本进行识别,获取该集成学习模型输出的类别标签,该集成学习模型是由集成学习算法融合多个机器学习模型得到的;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于世纪龙信息网络有限责任公司,未经世纪龙信息网络有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910732924.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top