[发明专利]面向数据开放共享的软件访问行为数据特征表示方法有效
申请号: | 201910109178.2 | 申请日: | 2019-02-04 |
公开(公告)号: | CN109948649B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 熊贇;张尧;朱扬勇 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/213;H04L9/40;G06N3/044 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于大数据技术领域,具体为一种面向数据开放共享的软件访问行为数据特征表示方法。本发明方法直接接收使用者的软件访问行为数据序列,输出该行为数据序列的特征表示向量。本发明设计了单时刻的行为数据编码器,用于对单个时间点中的多组行为数据进行汇总,并利用自注意力机制抽取重要的行为事件;汇总后的单时间点数据输入到循环神经网络中,对行为序列进行表示,最后从中提取整个序列的特征表示。本发明利用预测编码对单时间点编码器与循环神经网络的参数进行训练,并加入生成对抗网络提升模型效果,有助于对使用者访问行为进行分析,了解使用者的使用需求,及时对软件访问行为进行监管,为推动数据自治开放提供安全保障。 | ||
搜索关键词: | 面向 数据 开放 共享 软件 访问 行为 特征 表示 方法 | ||
【主权项】:
1.一种面向数据开放共享的软件访问行为数据特征表示方法,包括训练阶段和预测阶段;通过历史数据进行训练,然后在应用场景中部署并实时进行预测分析;其中:(一)训练阶段:(1)软件访问行为数据预处理:从数据集中抽取某名用户,从应用系统的历史数据中收集该名用户的软件访问行为数据,即该用户所访问的数据及其访问发生的时间、数据的相关属性、所使用的软件、访问方式等形成的行为数据,假设每条软件访问行为事件可表示为三元组(s_id,cat_attrs,num_attrs);其中,s_id∈C用于标识访问的数据,C表示数据全体;cat_attrs为若干个类别型属性;num_attrs为若干个数值型的属性;进一步,根据业务的实时性要求,将行为事件分为若干组,表示为序列s=<e1,…,eT>,其中,et表示在t时刻发生的所有事件构成的集合;(2)单时刻行为数据编码:给定某名用户在某时刻的行为数据记录集合
将其编码为一个固定长度的向量,作为模型的输入;编码用的编码器架构为人工神经网络,对于软件访问行为事件三元组的每个元组,编码器相应地有:若干嵌入层Emb.,若干全连接层FC;最后为自注意力模块;第一步,对单条访问事件(s_idi,cat_attrsi,num_attrsi)进行特征表示;其中,数据代码id通过嵌入层Emb.映射为其向量表示;类别型属性也逐一通过嵌入层Emb.得到各个字段的向量表示;数值型属性向量经过全连接层FC也得到一个向量,以上向量进行拼接后再经过一个全连接层FC,获得该条事件的特征表示zi;如此,按上述操作,将每条单条访问事件都进行特征表示;第二步,对上述zi汇总到自注意力模块;自注意力模块的自注意力机制如下:si=attention(zi,zc),ai=softmax(si),x=∑i ai·zi;其中,attention函数采用内积注意力
zc为自注意力模块的参数;最后得到的向量x即作为该时刻软件访问记录集编码后的特征向量,记为x=encoder(e);(3)预测编码:给定序列e1…et‑1,先通过上一步的编码器得到每时刻的特征向量表示x1…xt‑1,输入到循环神经网络中,循环神经网络采用GRU架构:h0=0,hi=GRU(xi,hi‑1),其中,hi为第i时刻的隐状态;接下来对未来信息进行预测,记真实的下一时刻的输入为et,再从数据集中随机抽取k个交易记录,作为负样本
将编码后的xt与
一同输入到分类器中,分类器能够正确判别下一时刻的样本为xt;即训练目标为最小化交叉熵损失函数:minL1=‑Es[logP(xt|ht‑1)];该模型能够对下一时刻进行预测,还能够对之后的Δt步进行预测,于是,实际的损失函数为:
(3.1)生成对抗网络:利用生成对抗网络的思想,额外构建生成器,用来动态构建负样本;判别器为预测编码中的分类器;在训练中,判别器能够对正负样本进行有效区分,而生成器则通过训练,生成高质量的负样本,能够欺骗判别器;在这样对抗训练过程中,生成器与判别器不断提升,使模型有高质量的负样本来源;(4)迭代优化参数:根据上一步计算出的损失函数L与L(G),通过随机梯度下降算法,对神经网络中的参数进行优化;(二)预测阶段:(1)软件访问行为数据预处理:同训练阶段,构建给定用户的软件访问行为序列数据s=<e1…eT>;(2)单时刻行为数据编码:同训练阶段,利用训练好的编码器,构建各个时刻的行为数据的特征表示xi=encoder(ei),i=1,…,T;(3)用户软件访问行为特征表示:利用训练好的循环神经网络GRU,计算各个时刻的隐状态:h0=0,hi=GRU(xi,hi‑1),i=1,…,T;并用如下方式构建该名用户的特征表示:φ(s)=maxt(ht)⊕meant(ht)⊕hT;其中,⊕表示向量拼接,max与mean表示按元素求最大、均值,取最大后的向量反映了访问记录中最突出的特征,均值向量与最后一时刻的隐状态向量hT则反映了全局的特征;(4)后续分析工作:利用上一步得到的用户的特征表示φ(s),在其上进行一系列的分析工作,包括数据使用者行为异常检测、数据使用者分类等。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910109178.2/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置