[发明专利]数据信息分类方法及装置有效
| 申请号: | 201910717439.9 | 申请日: | 2019-08-05 |
| 公开(公告)号: | CN112328784B | 公开(公告)日: | 2023-04-18 |
| 发明(设计)人: | 陈成才 | 申请(专利权)人: | 上海智臻智能网络科技股份有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/0464 |
| 代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 201803 上海市嘉*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据 信息 分类 方法 装置 | ||
本发明提供了一种数据信息分类方法及装置,所述方法包括:获取待分类的文本信息;对文本信息依次进行向量化处理、融合处理以及全局平均池化处理,得到每个特征向量对应的聚合信息;利用两个全连接网络对聚合信息进行筛选处理,得到每个特征向量对应的筛选参数;根据筛选参数判断特征向量是否为噪声特征,若是,则将特征向量屏蔽,并更新剩余的特征向量,得到更新后的特征向量;根据更新后的特征向量,更新多个方面的表示特征;对更新后的多个方面的表示特征进行降维处理,得到一个目标特征;根据目标特征得到文本信息的分类信息。本发明可以更加全面、准确地实现分类目的,且方法简单高效,成本低廉。
技术领域
本发明涉及信息处理技术领域,特别涉及一种数据信息分类方法、数据信息分类装置、存储介质及电子设备。
背景技术
随着信息时代的飞速发展,在互联网上拥有的信息资源越来越丰富,信息数据规模越来越巨大,表现形式也越来越多样。但是,对于海量的信息数据资源来说,其中的绝大部分都只能被人类所理解,机器对于这些信息的理解仍十分困难,特别是数量庞大的文本数据,自然语言理解也一直是非常热门的研究领域。
在自然语言处理过程中,文本分类作为内容分类、情感分析、主题识别等应用的基础,显得尤为重要。尤其是在数据分析领域,通常需要数据进行分类,然后对已分类的数据进行进一步处理。例如在智能交互中对交互日志的数据分析过程中,就需要对分类后的交互日志进行进一步的分析处理。
文本分类首先要根据文本内容分词,将分词转化为向量表示,现有技术包括SVM(支持向量机),Logistics(逻辑),RandomForest(随机森林),Bayes(贝叶斯),KNN(最临近)。SVM,Logistics,RandomForest是基于词向量方式的高维判别模型,对特征依赖比较强。Bayes,KNN基于统计方式的贝叶斯模型,高维判别模型主要问题就在于向量表达上无法表征完全文本的语义信息,而贝叶斯模型的决策边界确定是非常困难的。
因此,如何准确高效地实现数据信息的分类就成为本领域技术人员亟待解决的技术问题之一。
发明内容
为了解决上述问题,本发明提出一种数据信息分类方法、数据信息分类装置、存储介质及电子设备,以提高数据信息分类的准确率和效率。
根据上述目的,本发明实施例提供了一种数据信息分类方法,包括以下步骤:
获取待分类的文本信息;
对所述文本信息进行向量化处理,得到所述文本信息对应的文本向量;
对所述文本向量进行融合处理,得到所述文本信息的多个方面的表示特征;
对所述表示特征中包括的特征向量进行全局平均池化处理,得到每个所述特征向量对应的聚合信息;
利用两个全连接网络对所述聚合信息进行筛选处理,得到每个所述特征向量对应的筛选参数;
根据所述筛选参数判断所述特征向量是否为噪声特征,若是,则将所述特征向量屏蔽,并更新剩余的所述特征向量,得到更新后的特征向量;
根据更新后的所述特征向量,更新所述多个方面的表示特征;
对更新后的多个方面的表示特征进行降维处理,得到一个目标特征;
根据所述目标特征得到所述文本信息的分类信息。
可选地,对所述文本向量进行融合处理,得到所述文本信息的多个方面的表示特征采用以下公式处理:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海智臻智能网络科技股份有限公司,未经上海智臻智能网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910717439.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





