[发明专利]数据处理方法、装置与电子设备在审
申请号: | 201911044056.6 | 申请日: | 2019-10-30 |
公开(公告)号: | CN112750042A | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 陈尧 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06Q40/06 | 分类号: | G06Q40/06;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 电子设备 | ||
本公开提供一种数据处理方法、装置与电子设备。数据处理方法包括:获取包括对象的文本数据;对所述文本数据提取包括对象和类别的对应关系的多个词向量组;获取所述对象的动态指标;根据所述多个词向量组和所述对象的动态指标,确定所述类别的动态指标。本公开提供的数据处理方法可以自动根据对象相关的文本数据和对象的动态指标获取多个类别的动态指标。
技术领域
本公开涉及机器学习技术领域,具体而言,涉及一种能够自动确定股票概念对应的股指变化率的数据处理方法、装置与电子设备。
背景技术
在数据挖掘领域,往往需要根据大量个体对象的数据获取多个类别对应的数据,例如根据个股的股价变动率获取某一股票概念的股指。在个体对象明确属于某一类别时,数据处理过程较为简单,但是当个体对象同时属于多个类别时,如何确定个体对象的数据对类别的数据的影响,往往变得非常复杂。
在相关技术中,往往由人工标注某一个体对象涉及哪几个类别,甚至于标注某一个体对象对每种类别的占比。但是在一些复杂的场景下,比如股票指数编纂过程中,上市公司往往涉及多种业务,其数据能够影响多个股票概念,人工标注方法往往难以面对上市公司复杂的业务领域,且无法及时识别新出现的业务、新股票概念等。
因此,需要一种能够自动识别个体对象涉及的类别、自动确定个体对象的数据变动对类别的数据变动的影响的数据挖掘技术方案。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种数据处理方法、装置与电子设备,用于至少在一定程度上克服由于相关技术的限制和缺陷而导致的数据挖掘过程中难以精确确定个体对象数据与类别数据之间的关系的问题。
根据本公开实施例的第一方面,提供一种数据处理方法,包括:获取包括对象的文本数据;对所述文本数据提取包括对象和类别的对应关系的多个词向量组;获取所述对象的动态指标;根据所述多个词向量组和所述对象的动态指标,确定所述类别的动态指标。
在本公开的一种示例性实施例中,所述根据所述多个词向量组和所述对象的动态指标,确定所述类别的动态指标包括:
根据所述多个词向量组确定多个对象对目标类别的权重;
确定每个对象对所述目标类别的权重与该对象的动态指标的乘积;
将多个对象对应的多个所述乘积之和作为分子;
将所述多个对象对所述目标类别的权重之和作为分母;
根据所述分子和所述分母的比值确定所述目标类别对应的动态指标。
在本公开的一种示例性实施例中,所述根据所述多个词向量组确定多个对象对目标类别的权重包括:
将所述多个词向量组输入预设神经网络模型,以获取多个输出值;
在所述多个输出值中确定同时包括目标对象和目标类别的词向量组对应的m个输出值,m≥1;
在所述多个输出值中确定包括所述目标对象的词向量组对应的n个输出值,n≥1;
根据所述m个输出值之和与所述n个输出值之和的比值确定目标对象对目标类别的权重。
在本公开的一种示例性实施例中,所述预设神经网络模型的损失函数包括:
其中,L是损失函数,j是目标类别的序号,i1、i2是目标对象的序号,w是目标对象对目标类别的权重,x是目标对象的动态指标。
在本公开的一种示例性实施例中,所述预设神经网络模型的训练过程包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911044056.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带有湿度扫描的快速切片茯苓食品加工设备
- 下一篇:卡缘插槽连接器夹取工具