[发明专利]一种数据分类方法、装置和电子设备有效
申请号: | 202111231704.6 | 申请日: | 2021-10-22 |
公开(公告)号: | CN113934848B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 李长林;蒋宁;王洪斌;吴海英;权佳成;曹磊 | 申请(专利权)人: | 马上消费金融股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/23;G06F18/241 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 朱文杰 |
地址: | 404100 重庆市渝北区*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 分类 方法 装置 电子设备 | ||
本申请提供了一种数据分类方法、装置和电子设备,所述数据分类方法包括:获取第一待分类数据;将所述第一待分类数据与K个分类词表进行匹配,得到与所述K个分类词表一一对应的K个频次,其中,一个所述分类词表对应一个类别标签,所述分类词表包括至少一个关键词,所述K为大于1的整数;在所述K个频次中的最大频次与次大频次之间的差值小于或等于预设值的情况下,基于预设规则在所述K个分类词表对应的K个类别标签中确定所述第一待分类数据的类别标签。本申请技术方案至少可以解决现有的文本分类方法存在的分类准确性较差的问题。
技术领域
本申请涉及自然语言处理领域,具体涉及一种数据分类方法、装置和电子设备。
背景技术
在自然语言处理领域中,大量业务场景均涉及到需要对文本进行分类的问题,例如,在搜索引擎、问答系统、会话系统等场景均需要对文本进行分类。目前,在对文本进行分类时,主要是采用人工筛选关键词进行分类,然而,采用现有的分类方法存在分类的准确性较差的问题。
发明内容
本申请涉及一种数据分类方法、装置和电子设备,可以解决现有的文本分类方法存在的分类准确性较差的问题。
第一方面,本申请实施例提供了一种数据分类方法,包括:
获取第一待分类数据;
将所述第一待分类数据与K个分类词表进行匹配,得到与所述K个分类词表一一对应的K个频次,其中,一个所述分类词表对应一个类别标签,所述分类词表包括至少一个关键词,所述K为大于1的整数;
在所述K个频次中的最大频次与次大频次之间的差值小于或等于预设值的情况下,基于预设规则在所述K个分类词表对应的K个类别标签中确定所述第一待分类数据的类别标签。
第二方面,本申请实施例提供了一种数据分类装置,包括:
获取模块,用于获取第一待分类数据;
匹配模块,用于将所述第一待分类数据与K个分类词表进行匹配,得到与所述K个分类词表一一对应的K个频次,其中,一个所述分类词表对应一个类别标签,所述分类词表包括至少一个关键词,所述K为大于1的整数;
第一确定模块,用于在所述K个频次中的最大频次与次大频次之间的差值小于或等于预设值的情况下,基于预设规则在所述K个分类词表对应的K个类别标签中确定所述第一待分类数据的类别标签。
第三方面,本申请实施例还提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述第一方面所述的方法步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的方法步骤。
本申请实施例中,在将待分类数据分别与K个分类词表进行匹配,得到与K个分类词表一一对应的K个频次之后,进一步通过确定最大频次与次大频次之间的差值来确定待分类数据的类别,当所述差值小于或等于所述预设值的情况下,则说明在此情况下,基于分类词表对待分类数据进行分类的分类效果较差,因此,进一步基于预设规则对待分类数据进行分类,以提高对文本分类的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的数据分类方法的流程图;
图2是本申请实施例中生成K个关键词集合的流程图;
图3是本申请实施例中生成分类词表过程的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于马上消费金融股份有限公司,未经马上消费金融股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111231704.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置