[发明专利]一种集成浅层和深度学习的App分类方法有效

申请号：	201811241145.5	申请日：	2018-10-24
公开（公告）号：	CN109492678B	公开（公告）日：	2021-11-23
发明（设计）人：	吕明琪;黄超;陈铁明	申请（专利权）人：	浙江工业大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06F16/35
代理公司：	杭州斯可睿专利事务所有限公司 33241	代理人：	王利强
地址：	310014 浙江省杭***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种集成深度学习 app 分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种集成浅层和深度学习的App分类方法，其特征在于，所述方法包括以下步骤：

(1)基于互联网知识对App进行语义扩展，过程如下：

(1-1)搜索片段获取：将App名称作为搜索关键词，输入互联网搜索引擎API，得到搜索片段；

(1-2)App文档形成：对搜索片段进行过滤，合并剩下的搜索片段，形成App文档；

(1-3)App文档预处理：对App文档进行分词、去停用词、App名称删除操作；

(2)构建基于浅层学习的App基分类器，过程如下：

(2-1)关键词词典构建：首先，对所有App文档中涉及的词进行去重汇总，得到词典W；然后，计算W中每个词对每个App类型的权重；计算W中第i个词w_i对第j个App类型c_j的权重w(i,j)如下公式，

其中n(i,j)为w_i在c_j对应的所有App文档中出现的次数，C为App类型的集合；最后，为每个App类型取权重最高的kn个词作为其关键词，则可得到kn×|C|个关键词，形成关键词词典KW；

(2-2)特征向量计算：将每个App文档d转化为一个|KW|维的向量vsm(d)，其中vsm(d)的第i个分量代表KW中第i个关键词w_i在d中的权重，计算方法如下公式；

其中m(i,d)为w_i在d中出现的次数，D为App文档的集合，则vsm(d)即为d的特征向量；

(2-3)基分类器训练：基于有标注的App文档样本集L，采用人工神经网络训练基分类器SC；

(3)构建基于深度学习的App基分类器，过程如下：

(3-1)词向量训练：将App文档集D作为语料库，采用word2vec进行词向量训练，设置词向量维度为k，则得到W中每个词对应的向量表示，词w_i对应的向量表示为v_i；

(3-2)基分类器训练：采用卷积神经网络训练基分类器，对网络结构的解释如下：

输入层：将每个App文档处理成固定长度l，即固定包含l个词，并以词向量表示每个词，则每个App文档可被表示成一个l×k的矩阵，对长度大于l的App文档进行尾部截断，对长度小于l的App文档进行尾部填充全0向量；

卷积层：采用3种不同大小的窗口，分别为3×k、4×k、5×k，同一窗口大小设置100个卷积核，则每个卷积核会产生一个fl维的卷积特征向量，fl＝l-2、l-3或l-4，共300个卷积特征向量；

池化层：采用Max-Pooling-Over-Time池化策略，即每个卷积特征向量只保留最大的那个值，拼接对所有卷积特征向量的池化结果得到一个300维的特征向量；

输出层：采用“全连接层+Softmax”作为输出层，全连接层中采用Dropout机制防止过拟合；

(4)基于半监督学习技术对两个基分类器进行协同学习，并对学习结果进行融合得到最终App分类器，给定有标注App文档样本集L和无标注App文档样本集U，对基分类器进行协同学习的过程如下：

(4-1)复制样本集：复制样本集L₁＝L₂＝L，U₁＝U₂＝U；

(4-2)有监督训练：基于L₁，采用步骤(2)所述方法训练浅层学习基分类器SC；基于L₂，采用步骤(3)所述方法训练深度学习基分类器DC，在此基础上，采用十折交叉验证评测SC和DC的准确度，记SC的准确度为P_SC，DC的准确度为P_DC；(4-3)半监督训练：首先，采用基分类器SC对U₂中所有样本进行识别，为每个App类型c_j挑选出识别置信度最高的min(n_SC(j),m×P_SC)个样本，其中，n_SC(j)为SC在U₂中识别结果为c_j的样本的数量，min(x,y)代表取x和y中较小的值，将识别结果作为其标注，得到伪标注样本集E_SC并放入L₂；然后，采用基分类器DC对U₁中所有样本进行识别，为每个App类型挑选出识别置信度最高的min(n_DC(j),m×P_DC)个样本，其中，n_DC(j)为DC在U₁中识别结果为c_j的样本的数量，将识别结果作为其标注，得到伪标注样本集E_DC并放入L₁；

(4-4)算法迭代：若U₁和U₂中样本数量均为0或迭代次数超过指定阈值，则输出SC和DC，反之，则转向步骤(4-2)；

(4-5)分类器融合：对L中每一个样本，分别使用SC和DC对其进行识别，得到SC和DC识别其为每个App类型的概率，进而得到2个概率向量，其中，P_SC(i,k)为SC识别样本i为App类型c_k的概率，P_DC(i,k)为DC识别样本i为App类型c_k的概率；然后，将这2个概率向量的拼接和App类型标注作为新的样本，构建新的样本集NL；最后，基于NL、采用逻辑回归算法训练得到最终的App分类器FC。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江工业大学，未经浙江工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811241145.5/1.html，转载请声明来源钻瓜专利网。

上一篇：基于贝叶斯理论的时变网络链路预测方法
下一篇：基于注意力机制与联结时间分类损失的文字识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种集成浅层和深度学习的App分类方法有效

专利文献下载