[发明专利]应用分类模型构建方法、应用分类方法及系统在审

专利信息
申请号: 201510347750.0 申请日: 2015-06-19
公开(公告)号: CN105046270A 公开(公告)日: 2015-11-11
发明(设计)人: 马松玉 申请(专利权)人: 上海卓悠网络科技有限公司
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 北京科亿知识产权代理事务所(普通合伙) 11350 代理人: 肖平安
地址: 200093 上海市杨浦区*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 应用 分类 模型 构建 方法 系统
【说明书】:

技术领域

发明涉及一种应用分类模型构建方法及系统。

背景技术

随着手机等移动终端性能的提高和可下载的应用软件规模的极速增长,用户在选择应用时将面对更大的噪声,如何有效的对大规模应用进行分类从而提高用户的体验成为一个手机市场重要的技术手段。目前软件在应用市场进行推广,搜索,下载中,对于新应用的分类使用人工逐个审核的方式对应用归类,这样的方法人力成本高,而且平均精度不高,难以维护。

发明内容

本发明的目的在于提供一种应用分类模型构建方法及系统,能够有效降低人力成本,提高平均分类精度。

为解决上述问题,本发明提供一种应用分类模型构建方法,包括:

获取不同应用提供商的多数据源的应用基础分类数据作为训练数据;

获取训练数据中每个应用的权限列表;

根据训练数据中所有应用的权限列表构建一次匹配模型,所述一次匹配模型包括应用的多个第一分类;

获取训练数据中每个应用的主题信息,根据训练数据中所有应用的主题信息进行特征选择;

根据选择的特征构建二次匹配模型,所述二次匹配模型包括应用的多个第二分类。

进一步的,在上述方法中,获取不同应用提供商的多数据源的应用基础分类数据作为训练数据,包括:

获取不同应用提供商的多数据源的每个应用的分类向量;

统计每个应用的分类向量中每个分类的出现频次,由每个应用的分类向量中出现频次最高的分类作为该应用的应用基础分类,当出现无法判断分类的应用时将其从训练数据集中删除。

进一步的,在上述方法中,获取训练数据中每个应用的权限列表中,每个应用的权限列表为根据该应用的权限生成的字典表向量。

进一步的,在上述方法中,根据训练数据中所有应用的权限列表构建一次匹配模型,包括:

采用meanshift算法,并根据训练数据中归属于同一分类的应用权限向量计算每个分类的密度中心点。

进一步的,在上述方法中,根据训练数据中所有应用的主题信息进行特征选择,包括:

对每个应用的主题信息进行分词,去除带有噪声信息的词;

从所有应用的主题信息中剩余的未去除的词中选择特征词;

根据选择的特征词生成多个分类,每个分类包括多个特征词。

进一步的,在上述方法中,对每个应用的主题信息进行分词,去除带有噪声信息的词,包括:

对于中文的主题信息,采用中科院ICTCLAS算法来分词并去除带有噪声信息的词;

对于英文的主题信息,采用wordnet算法来分词并去除带有噪声信息的词。

进一步的,在上述方法中,从所有应用的主题信息中剩余的未去除的词中选择特征词,包括:

采用CHI检验算法设定最小阀值,从所有应用的主题信息中剩余的未去除的词中选择最小阀值以上的词作为特征词。

进一步的,在上述方法中,根据选择的特征构建二次匹配模型,包括:采用特征词维度平衡和贝叶斯分类器原理构建二次匹配模型。

进一步的,在上述方法中,采用特征词维度平衡和贝叶斯分类器原理构建二次匹配模型,包括:

采用特征词维度平衡原理,将特征词的数量在同一量级的分类分别生成对应的贝叶斯分类器,所有的贝叶斯分类器组合成二次匹配模型,每个贝叶斯分类器对应一个第二分类。

进一步的,在上述方法中,根据选择的特征构建二次匹配模型之后,还包括:

使用测试数据测试一次、二次匹配模型的准确率,并根据一次、二次匹配模型的准确率来分别对一次、二次匹配模型的模型参数进行调整,得到调整参数后的一次、二次匹配模型。

根据本发明的另一面还提供一种应用分类方法,采用上述应用分类模型构建方法构建的一次、二次匹配模型,所述应用分类方法,包括:

获取待分类应用的权限列表;

采用一次匹配模型,并根据待分类应用的权限列表判断待分类应用是否只属于某个第一分类,

若只属于某个第一分类,则输出所述待分类应用属于某个第一分类的结果;

若不只属于某个第一分类,则获取所述待分类应用的主题信息,采用二次匹配模型,并根据待分类应用的主题信息判断待分类应用是否属于某个第二分类,若属于某个第二分类,则输出所述待分类应用属于某个第二分类的结果;若不属于某个第二分类,则进行人工匹配并输出待分类应用的分类结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海卓悠网络科技有限公司,未经上海卓悠网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510347750.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top