[发明专利]一种数据特征的处理方法及装置有效
| 申请号: | 201610066847.9 | 申请日: | 2016-01-29 |
| 公开(公告)号: | CN107025233B | 公开(公告)日: | 2020-04-28 |
| 发明(设计)人: | 张研;杨冠军;蒋程诚 | 申请(专利权)人: | 苏宁云计算有限公司 |
| 主分类号: | G06F16/953 | 分类号: | G06F16/953 |
| 代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 许峰;苏一帜 |
| 地址: | 210042 江苏省南*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据 特征 处理 方法 装置 | ||
本发明实施例公开了一种数据特征的处理方法及装置,涉及大数据处理技术领域,能够降低数据提取的成本并提高了数据提取的准确性。本发明的方法包括:从业务日志获取明文样本,所述明文样本至少包括特殊字段和特征字段,所述特殊字段包括用于表示执行命令和操作命令的字段;根据预先配置的特征类,从所述特征字段获取特征明文,并记录样本签名,其中,内容相同的特殊字段对应同一个样本签名;提取对应所述样本签名的一个特殊字段,并将所获取的特征明文,拼接至所述一个特殊字段,得到拼接后的字段;将所述拼接后的字段作为特征样本输出。本发明适用于大数据处理中的数据特征提取。
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种数据特征的处理方法及装置。
背景技术
随着互联网技术的发展,在线数据的数据量呈指数级速度增加,为了应对海量数据的处理,发展出了很多大数据处理方案,以实现海量的数据中提取所需的信息。
对于不同领域以及不同种类的数据,由于在数据维度、格式等方面有很大差异,数据来源也错综复杂,导致需要占用很多计算资源在海量的数据中进行筛选并提取所需的信息。在现有的方案中,主要通过文本处理或者数据表的方式,通过一定编程语言提取其中有效的数据特征,从而实现数据提取。
但是,数据表所依据的数据特征较为单一,难以准确描述用户真正所需数据的概况,从而影响后续数据分析、建模的效果。尤其是在广告系统等刷新频率很高的业务数据处理系统中,对于大规模且多维度的广告数据,需要频繁更新建模,成本很高但是数据提取的准确性依然较低。
发明内容
本发明的实施例提供一种数据特征的处理方法及装置,能够降低数据提取的成本并提高了数据提取的准确性。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明的实施例提供一种数据特征的处理方法,包括:
从业务日志获取明文样本,所述明文样本至少包括特殊字段和特征字段, 所述特殊字段包括用于表示执行命令和操作命令的字段;
根据预先配置的特征类,从所述特征字段获取特征明文,并记录样本签名,其中,内容相同的特殊字段对应同一个样本签名;
提取对应所述样本签名的一个特殊字段,并将所获取的特征明文,拼接至所述一个特殊字段,得到拼接后的字段;
将所述拼接后的字段作为特征样本输出。
结合第一方面,在第一方面的第一种可能的实现方式中,所述从业务日志获取明文样本,包括:
读取所述业务日志中的明文字段;
在所述明文字段中剔除第一类型字段;和/或,转换所述明文字段中的第二类型字段的字符为指定形式;
通过MapReduce框架,将经过剔除和/或转换处理后的字段以Map方式存入内存。
结合第一方面,在第一方面的第二种可能的实现方式中,所述根据预先配置的特征类从所述特征字段获取特征明文,包括:
依次读取所述特征类中的字段,所述特征类中的字段与所述明文样本中的至少一条字段的内容相同;
根据所述特征类中的字段的内容,从所述明文样本中依次读取具有相同内容的字段作为所述特征字段;
将从所述明文样本中依次读取的所述特征字段记录在特征集合中。
结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述将所述拼接后的字段作为特征样本输出,包括:
通过MapReduce框架,将所述特征样本和所述特征集合导入Reduce阶段;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏宁云计算有限公司,未经苏宁云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610066847.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:遥控车库门板(二)
- 下一篇:一种信息推送方法及缓存服务器
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





