[发明专利]一种从日志流中自动提取特征的方法和系统有效
申请号: | 201710860336.9 | 申请日: | 2017-09-20 |
公开(公告)号: | CN107609147B | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 余建兴 | 申请(专利权)人: | 珠海金山网络游戏科技有限公司;广州西山居世游网络科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 樊思远 |
地址: | 519000 广东省珠*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 日志 自动 提取 特征 方法 系统 | ||
一种从日志流中自动提取特征的方法,包括以下步骤:从日志流中获取指定用户特征;利用聚合函数对获取的指定用户特征进行聚合,以生成对应用户的特征向量;根据聚合后的特征向量,构建基础特征向量;根据基础特征向量,构建时序特征;根据基础特征向量和构建时序特征,生成训练数据。本发明的目的在于解决从日志数据流中自动提取大量用户特征,日志流维度繁多和时序信息获得困难,不易于支撑用户粒度的精细化运营的问题。
技术领域
本发明涉及数据流分析领域,尤其涉及一种从日志流中自动提取特征的方法和系统。
背景技术
日志流,即用于记录产品运营状况或用户在产品侧行为的数据流。一般利用产品客户端记录用户在使用过程中的各种点击按键信息,并通过网络或者服务器接收客户端的上报数据。跟传统静态的状态信号不同,该类数据是一种连续动态的字符序列,信号有先后顺序且跟时间有关。日志数据流记录了用户在产品侧的各种行为状态,是刻画用户特征的重要运营信息。对用户特征和状态的有效构建是业务精细化运营的关键技术难点之一。概括地说,基于用户特征可以构建机器学习的算法模型,从历史数据中学习出规律用于划分用户群,以支撑运营人员针对各用户群制定和实施高效的运营策略,显著提升产品的业务体验。构建用户特性主要利用两类信息,包括相对静态的用户属性信息,如年龄/性别;还有动态的用户行为日志流,如登录、体验和消费等。相对于静态数据,日志流记录用户每个时刻发生的按键信号,数据规模极大,记录的条数与用户间是一种多对一的关系;而且作为一种跟时间相关的信号序列,不仅信号本身,而且信号的先后顺序都是刻画用户状况和各种偏好的重要因素。业界一般用人工的规则从以上两类数据中构建指定的特征,通用性不强,难以拓展。如何从日志流中自动提取特征是一个行业性的技术难题。据调研,目前业界暂无对应的研究和方法。
发明内容
为了解决从日志数据流中自动提取大量用户特征,日志流维度繁多和时序信息获得困难,不易于支撑用户粒度的精细化运营的问题。
根据本发明的第一个方面,提出了一种从日志流中自动提取特征的方法,包括以下步骤:从日志流中获取指定用户特征;利用聚合函数对获取的指定用户特征进行聚合,以生成对应用户的特征向量;根据聚合后的特征向量,构建基础特征向量;根据基础特征向量,构建时序特征;根据基础特征向量和构建时序特征,生成训练数据。
优选地,指定的特征包括用户的消费信息、登录信息、订阅信息以及对应前述信息的时间。
优选地,聚合函数包括求和函数、频率函数和时间函数中的至少一个。
优选地,在根据聚合后的特征向量,构建基础特征向量的步骤中,所述基础特征向量包括所述聚合后的特征向量的线性统计特征。
优选地,在根据聚合后的特征向量,构建基础特征向量的步骤中还包括以下子步骤:对基础特征向量进行归一化处理;其中,所述归一化处理包括以下三种方法,(a).全局最大最小值归一化方法,即x_nor=(x-x_min)/(x_max-x_min),x表示基础特征向量的数值,x_nor表示归一化后的基础向量的数值,x_min表示x在全局的最小值,x_max表示x在全局的最大值;(b).所属类别的最大最小值归一化方法,即x_nor=(x-x_min_class)/(x_max_class -x_min_class),x表示基础特征向量的数值,x_nor表示归一化后的基础向量的数值,x_min_class表示x在所属类别的最小值,x_max_class表示x在所属类别的最大值;以及(c).大小排序索引值做归一化方法,即x_nor=x_index/list_size,x_nor表示归一化后的基础向量的数值,x_index表示将特征按大小排序后的顺序索引值,list_size表示参与大小排序的特征的数量。
优选地,在根据基础特征向量,构建时序特征的步骤中,利用双向递归神经网络技术,构建时序特征;其中,所述时序特征包括指定用户特征在日志流中在时间上的先后顺序特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海金山网络游戏科技有限公司;广州西山居世游网络科技有限公司,未经珠海金山网络游戏科技有限公司;广州西山居世游网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710860336.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息展示方法、装置、终端及服务器
- 下一篇:一种弱网条件下数据流协同系统