[发明专利]服务器中数据的特征分析方法和装置在审
申请号: | 201610388434.2 | 申请日: | 2016-06-02 |
公开(公告)号: | CN107463564A | 公开(公告)日: | 2017-12-12 |
发明(设计)人: | 王堃;欧阳志友;岳东 | 申请(专利权)人: | 华为技术有限公司;南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/02 |
代理公司: | 北京龙双利达知识产权代理有限公司11329 | 代理人: | 毛威,肖鹂 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 服务器 数据 特征 分析 方法 装置 | ||
技术领域
本发明涉及数据分析领域,尤其涉及对服务器中数据的特征分析方法和装置。
背景技术
对于大数据的分析处理,由于模板匹配算法的处理速度快、可并行化执行等特点,因此在例如推荐系统、搜索引擎、在线广告、网站数字化运营等领域都得到了广泛运用。
然而,大数据的模板匹配算法的效果非常依赖于输入的数据特征,也就是为大数据设置的特征工程可以决定处理大数据的精度上限,例如:在实际的电子商务个性化推荐系统的测试中,特征工程对整个数据的分类预测结果的影响最多可以达到80%左右。这使得特征工程的构建成为一个跟算法同等重要甚至在实际应用中比算法更为重要的工作。
目前的模板匹配算法中特征工程的构建主要由人工进行自定义,例如:针对用户历史行为的待处理数据的特性,由领域专家预设用户历史行为特征的模板匹配算法、模板匹配参数、匹配度阈值等。这样,只能针对不同的业务知识来提取对应的特征,导致业务专家的参与时间较长,且特征提取准确度较低。
发明内容
本申请提供了一种服务器中数据的特征分析方法和装置,能够提高数据分类或预测的准确度。
第一方面,提供了一种服务器中数据的特征分析方法,该服务器包括待分析数据和数据库,该数据库包括至少一种数据类型、以及该至少一种数据类型中每种数据类型对应的特征扩展规则,该特征扩展规则用于将该每种数据类型扩展为至少一个扩展特征,该方法包括:根据该数据库中该至少一种数据类型,确定该待分析数据的数据类型;确定该待分析数据的数据类型对应的特征扩展规则;根据该待分析数据的数据类型对应的特征扩展规则,确定该待分析数据的至少一个扩展特征及每个扩展特征对应的数据;输出该待分析数据的该每个扩展特征对应的数据。
因此,本申请的服务器中数据的特征分析方法,确定至少一种数据类型,以及每种数据类型对应的特征扩展规则,可以实现从单一简单的数据类型出发,通过特征扩展规则挖掘出待分析数据的一系列扩展特征,减少数据分析时特征体系构建的工作量,而无需人工定义并提取待分析数据中的每个特征,减少特征提取过程中人工参与时间,更加快捷的构建特征体系,提高数据分类或预测的准确度。
应理解,该服务器中的数据库包括的数据类型,可以为根据业务需求,或数据分析的需求,由领域专家,或其他人员,定义一种或多种数据类型,每种数据类型对应一种存储格式。例如,待分析数据为与购物相关的数据,则可以根据分析需求,统计用户购物的情况,则可以定义数据类型为用户历史行为天数(his_time_int),存储格式可以为简单的编号。例如,对于某一年内,将购物天数小于或等于10天的记录,his_time_int标记为1,购物天数大于10天小于等于20天的记录,his_time_int标记为2,以此类推,可以用从1开始的序号对his_time_int进行编号。
再例如,待分析数据为与商品相关的数据,考虑分析需求以及业务需要,统计用户购买的商品信息,则可以定义数据类型为用户编号(user_id)、商品编号(item_id)或商品品类编号(category_id)等,他们的存储格式均可以是离散长整数类型(discret bigint),该类离散长整数可以进行排序,即大小的比较,并且可以使用与长整数一样的存储格式,但是不能进行加减乘除等数学操作。以商品编号(item_id)为例,该商品编号可以表示与该商品相关的信息,例如,通过商品编号可以标识出该商品的生成日期、购买日期、价格或种类等。
应理解,数据中的改至少一种数据类型可以在数据库中构成一个数据类型定义库,保存该数据类型定义库,并且可以不断增加该数据类型定义库中数据类型,以便于对不同数据进行分析时,可以通过查找该数据类型定义库确定数据类型,而无需每次都进行数据类型的定义,极大的减少人工参与过程。
在本申请中,在数据库中定义了至少一种数据类型后,还可以为每一种数据类型定义对应的特征扩展规则。具体地,可以根据业务需求,或者数学计算方式,或者数据类型、或者待分析数据需要扩展的特征,确定每种数据类型对应的特征扩展规则,该特征扩展规则可以包括特征提取的方法和参数,通过该特征扩展规则,在待分析数据的某一数据类型中提取出扩展特征。
例如,当数据类型为时间,如用户历史行为天数(his_time_int),对应的特征扩展规则可以为以下几种:
1、定义时间段的划分。对于不同的购买天数,可以根据分析的需求,划分不同时间段,统计每个时间段内的数据特征,如可以统计每个时间段内每个用户的购买量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司;南京邮电大学,未经华为技术有限公司;南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610388434.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:挂钩(HY‑0239)
- 下一篇:冲床用减压阀阀体(JH型1027)
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置