[发明专利]一种集成浅层和深度学习的App分类方法有效
申请号: | 201811241145.5 | 申请日: | 2018-10-24 |
公开(公告)号: | CN109492678B | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 吕明琪;黄超;陈铁明 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06F16/35 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 集成 深度 学习 app 分类 方法 | ||
1.一种集成浅层和深度学习的App分类方法,其特征在于,所述方法包括以下步骤:
(1)基于互联网知识对App进行语义扩展,过程如下:
(1-1)搜索片段获取:将App名称作为搜索关键词,输入互联网搜索引擎API,得到搜索片段;
(1-2)App文档形成:对搜索片段进行过滤,合并剩下的搜索片段,形成App文档;
(1-3)App文档预处理:对App文档进行分词、去停用词、App名称删除操作;
(2)构建基于浅层学习的App基分类器,过程如下:
(2-1)关键词词典构建:首先,对所有App文档中涉及的词进行去重汇总,得到词典W;然后,计算W中每个词对每个App类型的权重;计算W中第i个词wi对第j个App类型cj的权重w(i,j)如下公式,
其中n(i,j)为wi在cj对应的所有App文档中出现的次数,C为App类型的集合;最后,为每个App类型取权重最高的kn个词作为其关键词,则可得到kn×|C|个关键词,形成关键词词典KW;
(2-2)特征向量计算:将每个App文档d转化为一个|KW|维的向量vsm(d),其中vsm(d)的第i个分量代表KW中第i个关键词wi在d中的权重,计算方法如下公式;
其中m(i,d)为wi在d中出现的次数,D为App文档的集合,则vsm(d)即为d的特征向量;
(2-3)基分类器训练:基于有标注的App文档样本集L,采用人工神经网络训练基分类器SC;
(3)构建基于深度学习的App基分类器,过程如下:
(3-1)词向量训练:将App文档集D作为语料库,采用word2vec进行词向量训练,设置词向量维度为k,则得到W中每个词对应的向量表示,词wi对应的向量表示为vi;
(3-2)基分类器训练:采用卷积神经网络训练基分类器,对网络结构的解释如下:
输入层:将每个App文档处理成固定长度l,即固定包含l个词,并以词向量表示每个词,则每个App文档可被表示成一个l×k的矩阵,对长度大于l的App文档进行尾部截断,对长度小于l的App文档进行尾部填充全0向量;
卷积层:采用3种不同大小的窗口,分别为3×k、4×k、5×k,同一窗口大小设置100个卷积核,则每个卷积核会产生一个fl维的卷积特征向量,fl=l-2、l-3或l-4,共300个卷积特征向量;
池化层:采用Max-Pooling-Over-Time池化策略,即每个卷积特征向量只保留最大的那个值,拼接对所有卷积特征向量的池化结果得到一个300维的特征向量;
输出层:采用“全连接层+Softmax”作为输出层,全连接层中采用Dropout机制防止过拟合;
(4)基于半监督学习技术对两个基分类器进行协同学习,并对学习结果进行融合得到最终App分类器,给定有标注App文档样本集L和无标注App文档样本集U,对基分类器进行协同学习的过程如下:
(4-1)复制样本集:复制样本集L1=L2=L,U1=U2=U;
(4-2)有监督训练:基于L1,采用步骤(2)所述方法训练浅层学习基分类器SC;基于L2,采用步骤(3)所述方法训练深度学习基分类器DC,在此基础上,采用十折交叉验证评测SC和DC的准确度,记SC的准确度为PSC,DC的准确度为PDC;(4-3)半监督训练:首先,采用基分类器SC对U2中所有样本进行识别,为每个App类型cj挑选出识别置信度最高的min(nSC(j),m×PSC)个样本,其中,nSC(j)为SC在U2中识别结果为cj的样本的数量,min(x,y)代表取x和y中较小的值,将识别结果作为其标注,得到伪标注样本集ESC并放入L2;然后,采用基分类器DC对U1中所有样本进行识别,为每个App类型挑选出识别置信度最高的min(nDC(j),m×PDC)个样本,其中,nDC(j)为DC在U1中识别结果为cj的样本的数量,将识别结果作为其标注,得到伪标注样本集EDC并放入L1;
(4-4)算法迭代:若U1和U2中样本数量均为0或迭代次数超过指定阈值,则输出SC和DC,反之,则转向步骤(4-2);
(4-5)分类器融合:对L中每一个样本,分别使用SC和DC对其进行识别,得到SC和DC识别其为每个App类型的概率,进而得到2个概率向量,其中,PSC(i,k)为SC识别样本i为App类型ck的概率,PDC(i,k)为DC识别样本i为App类型ck的概率;然后,将这2个概率向量的拼接和App类型标注作为新的样本,构建新的样本集NL;最后,基于NL、采用逻辑回归算法训练得到最终的App分类器FC。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811241145.5/1.html,转载请声明来源钻瓜专利网。