[发明专利]一种集成浅层和深度学习的App分类方法有效

专利信息
申请号: 201811241145.5 申请日: 2018-10-24
公开(公告)号: CN109492678B 公开(公告)日: 2021-11-23
发明(设计)人: 吕明琪;黄超;陈铁明 申请(专利权)人: 浙江工业大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06F16/35
代理公司: 杭州斯可睿专利事务所有限公司 33241 代理人: 王利强
地址: 310014 浙江省杭*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 集成 深度 学习 app 分类 方法
【权利要求书】:

1.一种集成浅层和深度学习的App分类方法,其特征在于,所述方法包括以下步骤:

(1)基于互联网知识对App进行语义扩展,过程如下:

(1-1)搜索片段获取:将App名称作为搜索关键词,输入互联网搜索引擎API,得到搜索片段;

(1-2)App文档形成:对搜索片段进行过滤,合并剩下的搜索片段,形成App文档;

(1-3)App文档预处理:对App文档进行分词、去停用词、App名称删除操作;

(2)构建基于浅层学习的App基分类器,过程如下:

(2-1)关键词词典构建:首先,对所有App文档中涉及的词进行去重汇总,得到词典W;然后,计算W中每个词对每个App类型的权重;计算W中第i个词wi对第j个App类型cj的权重w(i,j)如下公式,

其中n(i,j)为wi在cj对应的所有App文档中出现的次数,C为App类型的集合;最后,为每个App类型取权重最高的kn个词作为其关键词,则可得到kn×|C|个关键词,形成关键词词典KW;

(2-2)特征向量计算:将每个App文档d转化为一个|KW|维的向量vsm(d),其中vsm(d)的第i个分量代表KW中第i个关键词wi在d中的权重,计算方法如下公式;

其中m(i,d)为wi在d中出现的次数,D为App文档的集合,则vsm(d)即为d的特征向量;

(2-3)基分类器训练:基于有标注的App文档样本集L,采用人工神经网络训练基分类器SC;

(3)构建基于深度学习的App基分类器,过程如下:

(3-1)词向量训练:将App文档集D作为语料库,采用word2vec进行词向量训练,设置词向量维度为k,则得到W中每个词对应的向量表示,词wi对应的向量表示为vi

(3-2)基分类器训练:采用卷积神经网络训练基分类器,对网络结构的解释如下:

输入层:将每个App文档处理成固定长度l,即固定包含l个词,并以词向量表示每个词,则每个App文档可被表示成一个l×k的矩阵,对长度大于l的App文档进行尾部截断,对长度小于l的App文档进行尾部填充全0向量;

卷积层:采用3种不同大小的窗口,分别为3×k、4×k、5×k,同一窗口大小设置100个卷积核,则每个卷积核会产生一个fl维的卷积特征向量,fl=l-2、l-3或l-4,共300个卷积特征向量;

池化层:采用Max-Pooling-Over-Time池化策略,即每个卷积特征向量只保留最大的那个值,拼接对所有卷积特征向量的池化结果得到一个300维的特征向量;

输出层:采用“全连接层+Softmax”作为输出层,全连接层中采用Dropout机制防止过拟合;

(4)基于半监督学习技术对两个基分类器进行协同学习,并对学习结果进行融合得到最终App分类器,给定有标注App文档样本集L和无标注App文档样本集U,对基分类器进行协同学习的过程如下:

(4-1)复制样本集:复制样本集L1=L2=L,U1=U2=U;

(4-2)有监督训练:基于L1,采用步骤(2)所述方法训练浅层学习基分类器SC;基于L2,采用步骤(3)所述方法训练深度学习基分类器DC,在此基础上,采用十折交叉验证评测SC和DC的准确度,记SC的准确度为PSC,DC的准确度为PDC;(4-3)半监督训练:首先,采用基分类器SC对U2中所有样本进行识别,为每个App类型cj挑选出识别置信度最高的min(nSC(j),m×PSC)个样本,其中,nSC(j)为SC在U2中识别结果为cj的样本的数量,min(x,y)代表取x和y中较小的值,将识别结果作为其标注,得到伪标注样本集ESC并放入L2;然后,采用基分类器DC对U1中所有样本进行识别,为每个App类型挑选出识别置信度最高的min(nDC(j),m×PDC)个样本,其中,nDC(j)为DC在U1中识别结果为cj的样本的数量,将识别结果作为其标注,得到伪标注样本集EDC并放入L1

(4-4)算法迭代:若U1和U2中样本数量均为0或迭代次数超过指定阈值,则输出SC和DC,反之,则转向步骤(4-2);

(4-5)分类器融合:对L中每一个样本,分别使用SC和DC对其进行识别,得到SC和DC识别其为每个App类型的概率,进而得到2个概率向量,其中,PSC(i,k)为SC识别样本i为App类型ck的概率,PDC(i,k)为DC识别样本i为App类型ck的概率;然后,将这2个概率向量的拼接和App类型标注作为新的样本,构建新的样本集NL;最后,基于NL、采用逻辑回归算法训练得到最终的App分类器FC。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811241145.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top