[发明专利]确定小程序特征向量的方法、装置和电子设备有效
| 申请号: | 202010334290.9 | 申请日: | 2020-04-24 |
| 公开(公告)号: | CN111241496B | 公开(公告)日: | 2021-06-29 |
| 发明(设计)人: | 郑黄成;欧阳瑜;李佳佳 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
| 主分类号: | G06F21/12 | 分类号: | G06F21/12;G06F21/56 |
| 代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
| 地址: | 310007 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 确定 程序 特征向量 方法 装置 电子设备 | ||
本申请实施例提出了一种确定小程序特征向量的方法、装置和电子设备,能够生成机器能够识别的向量来准确的表达小程序的特征。其中,上述确定小程序特征向量的方法包括:在小程序的程序数据中按序抽取多个特征字符串,其中,程序数据包括以下至少一个种类的程序数据:小程序的包文件结构、小程序的静态代码文件、小程序的动态运行数据;根据多个特征字符串以生成小程序的特征字符串序列;将小程序的特征字符串序列转换为特征字符串向量;将特征字符串向量输入到训练好的深度学习模型中,以生成小程序的特征向量。
技术领域
本申请实施例涉及小程序技术领域,尤其涉及一种确定小程序特征向量的方法、装置和电子设备。
背景技术
小程序是一种不需要下载安装即可使用的应用,通常需要依托于一定的小程序平台(其它的应用软件),用户在下载安装一款能够作为小程序平台的应用软件之后,可以通过应用软件中提供的小程序入口(如小程序图标、小程序搜索结果的选项)进入小程序,使用小程序所提供的功能。
发明内容
本申请实施例提供了一种确定小程序特征向量的方法、装置和电子设备,以生成机器能够识别的向量来准确的表达小程序的特征。
第一方面,本申请实施例提供一种确定小程序特征向量的方法,该方法包括:在小程序的程序数据中按序抽取多个特征字符串,其中,程序数据包括以下至少一个种类的程序数据:小程序的包文件结构、小程序的静态代码文件、小程序的动态运行数据;根据多个特征字符串以生成小程序的特征字符串序列;将小程序的特征字符串序列转换为特征字符串向量;将特征字符串向量输入到训练好的深度学习模型中,以生成小程序的特征向量。
其中一种可能的实现方式中,将小程序的特征字符串序列转换为特征字符串向量,包括:根据预设索引映射表中字符串与数字索引码之间的映射关系,将特征字符串序列中的每个特征字符串替换为对应的数字索引码,以得到特征字符串向量。
其中一种可能的实现方式中,在程序数据包括多个种类的情况下,根据多个特征字符串以生成小程序的特征字符串序列,包括:分别在每个种类的程序数据对应的特征字符串中,抽取不超过预设数量的特征字符串;组合抽取出的特征字符串,以得到特征字符串序列。
其中一种可能的实现方式中,程序数据包括小程序的包文件结构,在小程序的程序数据中按序抽取多个特征字符串,包括:按照包文件结构的结构顺序,抽取每个文件的文件名和文件类型后缀,以得到每个文件的文件名特征字符串,其中,每个文件名特征字符串包括对应文件的文件名和文件类型后缀。
其中一种可能的实现方式中,根据多个特征字符串以生成小程序的特征字符串序列,包括:在根据包文件结构得到的文件名特征字符串中,抽取目标文件类型后缀的字符串,以得到对应于包文件结构的特征字符串;根据抽取出的字符串生成特征字符串序列。
其中一种可能的实现方式中,程序数据包括小程序的静态代码文件,在小程序的程序数据中按序抽取多个特征字符串,包括:在小程序的静态代码文件中,选取多个目标代码文件;在每个目标代码文件中匹配预设正则表达式,其中,预设正则表达式包括一个或多个目标字符串以及每个目标字符串的匹配规则;将每个命中的代码片段拆分为多个字符串,得到多个特征字符串。
其中一种可能的实现方式中,程序数据包括小程序的动态运行数据,在小程序的程序数据中按序抽取多个特征字符串,包括:运行小程序;抓取小程序运行过程中产生的请求在请求中匹配预设字符串,其中,每个预设字符串用于表示请求中携带的一种信息的名称;拆分命中的请求,得到多个特征字符串。
其中一种可能的实现方式中,在根据预设索引映射表中字符串与数字索引码之间的映射关系,将特征字符串序列中的每个特征字符串替换为对应字符串的数字索引码之前,该方法还包括:确定在多个特征字符串中出现的、且预设索引映射表中未出现的不重复字符串,得到未知字符串;为每个未知字符串分配不重复的数字索引码;在预设索引映射表中存储未知字符串与对应的数字索引码之间的映射关系,以更新预设索引映射表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010334290.9/2.html,转载请声明来源钻瓜专利网。





