[发明专利]用于识别恶意APK文件的方法和装置有效
申请号: | 201310388742.1 | 申请日: | 2013-08-30 |
公开(公告)号: | CN103473506A | 公开(公告)日: | 2013-12-25 |
发明(设计)人: | 杨康;陈卓 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56 |
代理公司: | 北京智汇东方知识产权代理事务所(普通合伙) 11391 | 代理人: | 康正德;郭海彬 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 识别 恶意 apk 文件 方法 装置 | ||
技术领域
本发明涉及互联网计算机安全防护领域,具体而言,涉及一种用于识别恶意APK文件的方法和装置。
背景技术
APK是Android application package file的缩写,即安卓安装包,可以理解为安卓终端上安装的应用软件。随着安卓终端的普及和发展,各种各样的APK应运而生,例如,一些APK通过诸如短信定制付费服务、拨打付费电话、备份用户手机中的敏感数据至特定服务器等恶意行为来损害用户的权益。这类恶意APK在用户不知晓也未授权的情况下潜入到用户的终端中,对用户的信息安全和财产安全带来隐患。
现有技术中的识别恶意APK的方法主要依靠人工抽取特征码并制定相应的识别规则或者根据病毒APK制作者的APK数字签名进行识别。前者的识别方式需要分析师针对已有APK程序样本进行人工分析,找出相应的特征,这严重依赖于病毒分析师的能力,因此需要大量经验丰富的人员才能满足解决问题的需求,并且由于技术复杂,识别的效率比较低。而且利用人工总结特征码一般只能处理已知的恶意APK,不能对可能发生的问题进行防范,因此具有一定的滞后性;后者的识别方法基于简单的特征或规则或者数字签名进行识别,很容易被病毒制作者绕开,造成漏过恶意程序的问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的识别恶意APK文件的装置和相应的识别恶意APK文件的方法。
依据本发明的一个方面,提供了识别恶意APK文件的方法。该识别恶意APK文件的方法包括以下步骤:选取预定数量APK文件样本;解析APK文件样本中的可执行文件并提取出解析文本中的特征字符串;利用特征字符串构建恶意程序特征码列表和非恶意程序特征码列表;将APK文件样本对应的特征字符串与恶意程序特征码列表和非恶意程序特征码列表分别进行比对,得到该APK文件样本的字符串特征向量,并根据字符串特征向量和该APK文件样本向系统申请的权限生成该APK文件样本的识别特征向量;对多个APK文件样本的识别特征向量进行训练,生成用于识别恶意APK文件的分类模型;利用该分类模型对未知类型的APK文件进行识别。
可选地,解析APK文件样本中的可执行文件并提取出解析文本中的特征字符串包括:解析APK文件样本中的可执行文件,提取解析文本中的字符串;对字符串进行大小写统一处理,并对同一解析文本中的字符串进行去重处理,得到该样本的特征字符串。
可选地,利用特征字符串构建程序特征码列表和非恶意程序特征码列表包括:计算每一特征字符串在APK文件样本中的恶意APK文件样本中出现的比率,记为第一比率;计算每一特征字符串在APK文件样本中的非恶意APK文件样本中出现的比率,记为第二比率;按照第一比率和第二比率选取恶意程序特征码和非恶意程序特征码,并由恶意程序特征码构建恶意程序特征码列表,以及由非恶意程序特征码构建非恶意程序特征码列表。
可选地,按照第一比率和第二比率选取恶意程序特征码和非恶意程序特征码包括:计算同一特征字符串的第一比率和第二比率的差值,并按照所述差值对特征字符串进行排序;按照所述排序的结果选取恶意程序特征码和非恶意程序特征码。
可选地,对多个APK文件样本的识别特征向量进行训练包括:使用支持向量机算法或者逻辑回归法对APK文件样本的识别特征向量进行训练。
可选地,在生成用于识别恶意APK文件的分类模型之后还包括:选取验证APK样本;使用分类模型对验证APK样本进行恶意程序识别;根据识别结果对分类模型进行优化。
可选地,根据识别结果对分类模型进行优化包括:将识别结果与验证APK样本的类型进行比较,以判断是否出现漏报;在出现漏报的情况下,解析出现漏报的验证APK样本中的可执行文件,并根据解析出的漏报的验证APK样本的特征字符串对恶意程序特征码和非恶意程序特征码进行修改,并利用修改后的恶意程序特征码和非恶意程序特征码重新生成分类模型。
可选地,根据识别结果对所述分类模型进行优化包括:将识别结果与验证APK样本的类型进行比较,以判断是否出现误报;在出现误报的情况下,解析出现误报的验证APK样本中的可执行文件,并根据解析出的误报的验证APK样本的特征字符串对恶意程序特征码进行修改,并利用修改后的恶意程序特征码重新生成分类模型。
可选地,解析所述APK文件样本中的可执行文件并提取出解析文本中的特征字符串包括:对APK文件样本中的dex文件进行解析,得到的字符串包括以下任一项或多项:头部信息特征码、常量特征码、操作数特征码、指令特征码、指令特征码序列、类名函数名特征码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310388742.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:锁持结构及应用该锁持结构的电子装置
- 下一篇:智能型防过曝高清网络摄像机