[发明专利]邮件识别方法及装置有效
| 申请号: | 200710154641.2 | 申请日: | 2007-09-20 |
| 公开(公告)号: | CN101119341A | 公开(公告)日: | 2008-02-06 |
| 发明(设计)人: | 王晖;林初仁 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | H04L12/58 | 分类号: | H04L12/58;H04L29/06;G06Q10/00 |
| 代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
| 地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 邮件 识别 方法 装置 | ||
1.一种邮件识别方法,其特征在于,包括:
获取邮件的外在表现特征值;所述外在表现特征值包括:邮件编码和邮件长度;
根据邮件的外在表现特征值,判断所述邮件的类型;
将所述邮件发送到所述类型对应的贝叶斯过滤器识别该邮件是否为垃圾邮件;
所述方法进一步包括:
获取样本邮件的外在表现特征值;
根据所述外在表现特征值,利用k-means算法,从样本邮件中选择出n个中心邮件,每个中心邮件对应一类样本邮件;包括:步骤a1.在m个样本邮件中随机选择n个样本邮件作为中心邮件,n为大于等于2的整数;步骤a2.获取样本邮件的外在表现特征值;步骤a3.根据该外在表现特征值,计算其余m-n个样本邮件分别到上述n个中心邮件的距离;步骤a4.比较同一个样本邮件到n个中心邮件的距离,按照距离最短原则,将该样本邮件与所述n个中心邮件中与其距离最短的中心邮件分为一类,直到将所有样本邮件分类;步骤a5.将同一类邮件中的所有邮件的外在表现特征值对应相加,然后除以该类型中邮件的数目,获得外在表现特征平均值;步骤a6.将同一类邮件中的每个邮件的外在表现特征值与该类型的外在表现特征平均值进行比较,差别最小者为该类邮件的新的中心邮件,直到获取到n个新的中心邮件;根据获取到的n个新的中心邮件,再次执行步骤a2至步骤a6,直到多次计算出的每类邮件的中心邮件为同一个邮件;
以每个中心邮件对应的一类样本邮件作为样本库训练贝叶斯过滤器;
其中,所述样本邮件中包括:已被标记为垃圾邮件的邮件和非垃圾邮件的邮件。
2.如权利要求1所述的方法,其特征在于,所述根据邮件的外在表现特征值,判断所述邮件的类型具体包括:
根据所述外在表现特征值,计算所述邮件分别到预定的n个中心邮件的 距离L;
将所述邮件到预定的n个中心邮件的距离排序,选择与所述邮件距离最短的中心邮件。
3.如权利要求1所述的方法,其特征在于,所述根据邮件的外在表现特征值,判断所述邮件的类型具体包括:
根据所述外在表现特征值,计算所述邮件分别到预定的n个中心邮件的距离L;
将所述邮件到预定的n个中心邮件的距离排序,由小到大选择i个中心邮件,i为大于等于2的整数。
4.如权利要求3所述的方法,其特征在于,将所述邮件发送到所述类型对应的贝叶斯过滤器识别该邮件是否为垃圾邮件具体包括:
根据所述外在表现特征值,计算所述邮件分别到预定的n个中心邮件的距离L;
根据所述邮件到所选择的i个中心邮件的距离L,计算所述邮件到所选择的中心邮件的距离概率Q1、Q2、....Qi,且Q1+Q2+....+Qi=1;
将所述邮件发送至所选择的i个中心邮件对应的贝叶斯过滤器,得到所述邮件的垃圾邮件概率P1、P2、....Pi;
依据:加权垃圾邮件概率=P1*Q1+P2*Q2....+Pi*Qi,计算所述邮件的加权垃圾邮件概率,将所述加权垃圾邮件概率与预置的第二门限值比较,若高于所述第二门限值,则将所述邮件标记为垃圾邮件。
5.如权利要求1所述的方法,其特征在于,所述根据邮件的外在表现特征值,判断所述邮件的类型具体包括:
根据所述外在表现特征值,计算所述邮件分别到预定的n个中心邮件的距离L;
根据所述邮件到所述预定的n个中心邮件的距离L,计算邮件与预定的n个中心邮件的距离概率Q1、Q2、....Qn,且Q1+Q2+....+Qn=1;
将所述距离概率排序,由大到小依次将距离概率相加,选择使距离概率 和首次大于预定的距离概率门限值的中心邮件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710154641.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种依托泊甙静脉乳剂及其制备方法
- 下一篇:一种发泡热塑性弹性体及其制备方法





