[发明专利]电子邮件的隐私保护标记和分类在审
申请号: | 201980050036.1 | 申请日: | 2019-06-21 |
公开(公告)号: | CN112567407A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 罗一;李伟生;S·S·阿卡亚;M·森;R·K·R·波鲁里;C·鲁德尼克 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06Q10/10 | 分类号: | G06Q10/10 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 黄倩 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子邮件 隐私 保护 标记 分类 | ||
电子邮件或其他通信利用类别标记(诸如“垃圾”或“良好”)而不使用机密或个人可标识信息(PII)而被标记。该类别标记基于该电子邮件的不包含PII的特征,诸如元数据。电子邮件特征与类别标记之间的推理关系的图被用于向电子邮件和电子邮件的特征指派标记。已标记电子邮件被用作用于训练机器学习模型(“MLM”)的训练数据集。MLM模型标识不想要的电子邮件,诸如垃圾、批量电子邮件、网络钓鱼电子邮件、和包含恶意软件的电子邮件。
背景技术
不需要的电子邮件和其他电子通信对于电子通信系统的用户来说是一个持续存在的问题。由不需要的电子邮件引起的问题的范围可以从由垃圾和批量电子邮件引起的打扰到由于网络钓鱼攻击和恶意软件导致的严重危害。解决由不需要的通信引起的问题的一个步骤是将不需要的通信与期望的通信区分开。已经使用了许多技术来标识垃圾、批量电子邮件、网络钓鱼电子邮件、包含恶意软件的电子邮件等。然而,由于不良行为者的不懈适配会创建不需要的通信,因此大多数技术仅在有限的时间和有限的场景中有用。
作为一个示例,在企业电子邮件系统上,在维护电子邮件内容的机密性和保护个人可标识信息(“PII”)的同时,有效地标识和控制不需要的通信具有挑战性。在不能“进入查看”电子邮件的情况下阻止垃圾是困难的。在不访问消息的内容的情况下,创建有效地区分期望通信和不期望通信的系统具有挑战性。
相对于这些和其他考虑,提出了本文进行的本公开。
发明内容
本文描述了用于在不使用机密信息或PII的情况下从电子邮件创建已标记的训练数据集的技术。训练数据集与监督式机器学习一起使用,以创建机器学习模型(“MLM”),该模型将电子邮件分类为类别,诸如良好电子邮件、垃圾电子邮件、网络钓鱼电子邮件、批量电子邮件和恶意软件电子邮件。通过使用不包括PII的电子邮件特征之间的关系来为先前未标记电子邮件确定适当标记,该技术能够标记各个电子邮件,而无需访问消息的内容。可能使用的电子邮件消息的一些特征包括元数据和传输数据,如发件人电子邮件地址、发件人电子邮件主机服务器、时间戳、字符编码的类型、电子邮件中所包括的通用资源定位符(“URL”)的散列、以及电子邮件正文的一部分的散列。
初始标记可以来自以下项的白名单或黑名单:电子邮件地址、主机服务器名称、URL等,并且也来自手动标记的电子邮件。用户可以通过评估自己的电子邮件来提供手动标记,以保护隐私。每个电子邮件特征和电子邮件本身都可以与其他相似或相同的特征/电子邮件被分组为簇。术语“实体”是指特定的电子邮件特征以及电子邮件本身,因为任何一个都可以是形成簇的基础,并且被应用于任何一个的标记可以潜在的被映射到另一个。例如,特定发件人的电子邮件地址可以在其自己的簇中,并且被应用于该电子邮件地址的任何标记都将被表示在簇中。类似地,簇可以被形成为:包含与特定标记相关联的多个电子邮件消息,诸如不请自来的批量电子邮件(“UBE”或“垃圾”)。
该技术使用“扩展图”,其基于所聚类的不同类型的实体之间的关系来表示推理逻辑。扩展图是捕获聚类和标记扩展逻辑的逻辑/抽象层。标记扩展逻辑指示何时可以将被应用于一个实体的标记扩展为也应用于另一实体。例如,如果给定的发件人电子邮件地址已被标记为“良好”,那么可以推理来自该发件人的电子邮件是“良好”电子邮件。然而,如果电子邮件被标记为“垃圾”,则不一定意味着发送电子邮件的主机服务器被用于仅供用于垃圾。从扩展图导出的标记可以与置信度水平相关联。置信度水平可以基于初始标记的源、数据点的数目、标记的年龄(age)等。例如,由用户手动应用的标记的置信度可能远高于来自冲突指示的集合(例如一些实例指示批量电子邮件,并且一些实例指示良好电子邮件)的标记的置信度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980050036.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:生物识别记录相机
- 下一篇:电位计式测量链和测定pH值的方法
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理