[发明专利]一种非合法外发邮箱的识别系统、方法、设备及存储介质有效

申请号：	201810922011.3	申请日：	2018-08-14
公开（公告）号：	CN109145298B	公开（公告）日：	2022-12-27
发明（设计）人：	马敏;黄丽诗;胡泽柱	申请（专利权）人：	顺丰科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/258;G06Q10/10
代理公司：	北京志霖恒远知识产权代理有限公司 11435	代理人：	赵奕
地址：	518061 广东省深圳市南山区学府路（以南）***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种合法邮箱识别系统方法设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种非合法外发邮箱的识别系统、方法、设备及存储介质。根据预设时段内部邮箱与待识别外发邮箱之间待测往来邮件数据、内部邮箱对应用户的岗位信息、待识别外发邮箱的属性标签信息中的至少一项提取第二特征信息，并将所述第二特征信息输入至外发邮箱识别模型生成待识别外发邮箱是否合法的识别结果。通过上述方法识别出非合法外发邮箱，对企业员工外发邮件至私人邮箱等非合法外发邮箱的行为进行有效的识别监督，且在调查数据泄漏事件时，通过本发明所述方法可将客户邮箱、供应商邮箱等外部合法发送对象的邮箱区分出来，仅对非合法外发邮箱有针对性的调查，不会混淆调查重点，大大缩短了调查时长，提高了调查精度。

技术领域

本发明涉及数据挖掘领域，尤其涉及一种非合法外发邮箱的识别系统、方法、设备及存储介质。

背景技术

企业普遍存在因邮件外发导致的内部数据泄露事件；在调查泄漏事件时，客户邮箱、供应商邮箱等外部合法发送对象的邮箱会混淆调查重点，增加调查时长，降低调查精度；目前尚未存在完善的私人邮箱识别技术。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种用户异常行为检测方法、系统及设备。

根据本发明的一个方面，提供了一种非合法外发邮箱的识别方法，包括以下步骤：

根据预设时段内部邮箱与待识别外发邮箱之间待测往来邮件数据、内部邮箱对应用户的岗位信息、待识别外发邮箱的属性标签信息中的至少一项提取第二特征信息，并将所述第二特征信息输入至外发邮箱识别模型生成待识别外发邮箱是否合法的识别结果，所述外发邮箱识别模型用于表征第二特征信息与所述识别结果的对应关系，

其中，外发邮箱识别模型是将根据预设时段内部邮箱与外发邮箱之间历史往来邮件数据、内部邮箱对应用户的岗位信息、外发邮箱的属性标签信息中的至少一项提取的第一特征信息输入至预设初始外发邮箱识别模型训练所得。

第一特征信息、第二特征信息均包括：往来邮件的数据量信息、往来次数信息、与内部预设岗位用户往来邮件的数据量及往来次数信息、首末往来邮件的时长信息、往来邮件的平均效率及频次信息、往来邮件的高效率及高频次信息、往来邮件的数据量及次数的聚合信息、内部用户的数量及对应的岗位数量信息、往来内部邮箱是否仅为一个、往来邮件的标题信息、转发合法外发邮箱邮件的数量信息的至少一种。

标题信息包括标题长度信息、包含和/或不包含预设字符和/或字符串长度不超阈值的标题的数量信息。

转发合法外发邮箱邮件的数量信息的获取过程，包括：

获取外发邮箱发送至内部邮箱的邮件标题，并去除回复和/或转发字样或等同字样，得第一邮件标题；

获取内部邮箱发送至外发邮箱的邮件标题，筛选出包含转发或等同字样的邮件标题，得第二邮件标题；

将第一邮件标题与第二邮件标题匹配，若匹配度超过阈值，则为内部邮箱转发合法外发邮箱邮件，并统计得转发合法外发邮箱邮件的数量信息。

预设初始外发邮箱识别模型及外发邮箱识别模型为单分类模型或分类模型。

合法的外发邮箱/非合法外发邮箱超过阈值时，预设初始外发邮箱识别模型及外发邮箱识别模型为单分类模型。

单分类模型为oneclass svm分类模型。

合法的外发邮箱/非合法外发邮箱小于阈值时，预设初始外发邮箱识别模型及外发邮箱识别模型为分类模型。

分类模型为随机森林分类模型。

根据本发明的另一个方面，提供了一种非合法外发邮箱的识别系统，包括：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。