[发明专利]邮件类型判断方法、装置及系统和行为模型建立装置无效
申请号: | 200710128086.6 | 申请日: | 2007-07-09 |
公开(公告)号: | CN101079851A | 公开(公告)日: | 2007-11-28 |
发明(设计)人: | 刘竟;刘峤;秦志光;郑志彬 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;G06F17/30;G06Q10/00 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
地址: | 518129广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 邮件 类型 判断 方法 装置 系统 行为 模型 建立 | ||
技术领域
本发明涉及互联网技术,具体涉及邮件类型判断方法、装置及系统。
背景技术
电子邮件作为互联网的第一大应用,一直受到广大网民的青睐。但是,近些年来,垃圾邮件问题日益严重。垃圾邮件的基本特征是“不请自来”,而且大部分垃圾邮件都带有商业或者其他宣传目的。同时,垃圾邮件的判定和邮件的接收者有很大关系,不同用户对同一邮件的判断结果可能会存在差异。随着技术的进步,垃圾邮件的过滤技术正由单一基于静态规则和统计分类向着基于行为的过滤技术方向转变。
现有的主流的垃圾邮件过滤方法都是基于邮件内容的,一种垃圾邮件的过滤方法是基于学习矢量量化(Learning Vector Quantization,LVQ)的,LVQ是一种由芬兰学者提出的有监督神经网络,是一种在监督状态下对竞争层进行训练的一种学习方法,通过学习,LVQ将输入向量中与目标向量相近的分离出来。LVQ是一种根据样本模式的特性进行“奖/惩”的迭代学习算法。
其基本思想是:先要设置一个训练集,训练集的数据是由分类已知邮件的邮件体部分向量化后得到的,对于来自训练集中的矢量,如果与最近神经元属同一类,则无需学习,具体过程是这样的:将来自训练集中的向量作为输入,采用LVQ算法进行计算,如果计算结果符合预置的要求,则说明与最近神经元属同一类,则不用对算法的参数进行修改。否则将惩罚分类错误的神经元,奖励分类正确的神经元,如果计算结果不符合预置的规定,则需要对LVQ算法中的参数进行修改,神经网络是由多个神经元构成的,对于计算结果正确的神经元,则可以对其进行奖励,采用与奖励对应的迭代公式进行迭代;如果计算结果错误,则对其进行惩罚,采用与惩罚对应的迭代公式进行迭代。经若干次迭代,所得矢量集合不再有明显变化,即计算结果都符合预置要求,说明对这个训练集的训练完成。
在对邮件进行过滤时,对邮件内容进行分词,计算每个词的词频,然后以每个词的词频作为输入值,使用训练得到的参数,采用LVQ算法进行计算,对计算得到的值进行判断,如果值与1相近则该邮件为垃圾邮件,反之如果与0接近则该邮件为非垃圾邮件,从而完成对垃圾邮件的过滤。
在实现本发明的过程中,发明人发现现有技术至少存在如下缺陷:
邮件体内容多,且变化多,将会导致训练慢且训练集不完整等问题,可能导致过滤得准确率不高;并且,由于邮件体的内容及格式都是不定的,可能会造成邮件判断速度慢;进一步,非中文邮件等邮件的邮件体会被表示成零向量,从而认为该邮件为正常邮件,因而当垃圾邮件也被表示成零向量时,无法对其进行过滤,进一步降低了过滤的正确率。
发明内容
本发明实施例提供邮件类型判断方法、装置及系统,提高对邮件的邮件类型判断的速度。
本发明实施例的目的是通过以下技术方案实现的:
本发明实施例提供了一种邮件类型判断方法,包括:
读取分类未知邮件的邮件头,所述邮件头是在邮件传递过程中,按照简单邮件传输协议在邮件服务器之间传输的信令;
从所述邮件头提取符合预置条件一的字段一;
将所述字段一与其表现形式组合向量化,得到预置数量一的特征向量一;
以所述特征向量一为输入,采用预先建立的行为模型保存的数据,使用预置预测算法进行计算,得到计算结果;所述行为模型采用如下步骤建立:读取分类已知邮件的邮件头;从所述分类已知邮件的邮件头提取符合预置条件三的字段三;将所述字段三向量化得到预置数量三的特征向量三;将所述特征向量三按预置学习算法一建立所述行为模型;
根据所述计算结果对所述分类未知邮件的邮件类型进行判断。
与方法实施例对应的,本发明实施例还提供了一种邮件类型判断装置,包括:
用于读取分类已知邮件的邮件头的单元;用于从所述分类已知邮件的邮件头提取符合预置条件三的字段三的单元;用于将所述字段三向量化得到预置数量三的特征向量三的单元;用于将所述特征向量三按预置学习算法一建立行为模型的单元;
邮件头读取单元,用于读取分类未知邮件的邮件头,所述邮件头是在邮件传递过程中,按照简单邮件传输协议在邮件服务器之间传输的信令;
字段一提取单元,用于从所述分类未知邮件的邮件头提取符合预置条件一的字段一;
第一向量化单元,用于将所述字段一向量化得到预置数量一的特征向量一;
计算单元,用于以所述特征向量一作为输入,采用预先建立的行为模型
保存的数据,使用预置预测算法进行计算,得到计算结果;
判断单元,用于根据所述计算结果对所述分类未知邮件的邮件类型进行判断。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710128086.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抗静电纤维材料及其制备方法
- 下一篇:肉牛羊浓缩饲料添加剂配方