[发明专利]基于目标语义的文本分类方法、装置、设备及存储介质有效

专利信息
申请号: 202110838467.3 申请日: 2021-07-23
公开(公告)号: CN113486670B 公开(公告)日: 2023-08-29
发明(设计)人: 于凤英;王健宗 申请(专利权)人: 平安科技(深圳)有限公司
主分类号: G06F40/30 分类号: G06F40/30;G06F40/253;G06F18/23213;G06F18/2415;G06N3/088
代理公司: 深圳众鼎专利商标代理事务所(普通合伙) 44325 代理人: 陈美君
地址: 518000 广东省深圳市福田区福*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 目标 语义 文本 分类 方法 装置 设备 存储 介质
【说明书】:

本申请适用于人工智能技术领域,公开了一种基于目标语义的文本分类方法、装置、设备及存储介质,所述方法包括通过BERT预训练模型获取文本语料库中目标词及预设种子词的特征向量,结合分类标签集合,利用K均值聚类算法确定目标词的目标语义;基于目标词的目标语义与预设种子词构建第一训练样本,训练得到第一文本分类模型;使用第一文本分类模型为文本添加分类标签;根据排序系数公式,得到扩展种子词;基于已添加分类标签的文本、预设种子词及扩展种子词构建第二训练样本,训练得到第二文本分类模型,使用第二分类模型对待分类文本进行分类,实现了对特定上下文语境下目标词语义的确定,扩展了用于文本分类的种子词,提高了文本分类的准确率。

技术领域

发明涉及人工智能技术领域,尤其涉及一种基于目标语义的文本分类方法、文本分类装置、计算机设备及存储介质。

背景技术

文本分类是自然语言处理(Natural Language Processing,NLP)领域中最基本的任务,文本分类的准确率是文本分类方法重要的评判标准之一,而提升文本分类的准确率可以通过分字符、数据清洗、特征提取、模型建立以及训练语料等步骤实现。现有的文本分类模型及分类方法大多基于待分类文本中的类别关键词进行文本分类。

但在文本分类的过程中,一个词语常常有多个含义,每个含义可能都会决定文本所划分的不同类别,例如“苹果”一词,既可能指的是一种水果名称,也可能指的是一个电子产品品牌,现有的文本分类模型无法对文本中可能出现歧义的类别关键词的词义进行准确区分,在根据类别关键词进行文本分类时,导致了文本分类出现错误,因此,现有的文本分类方法中,由于一词多义所产生的歧义问题严重地影响了文本分类的准确率。

发明内容

本申请实施例提供一种基于目标语义的文本分类方法、装置、设备及存储介质,以解决现有文本分类方法无法准确区别分类关键词的词义,进而基于分类关键词进行文本分类时,所导致的文本分类准确率低的问题。

本申请的第一方面提供一种基于目标语义的文本分类方法,包括:

利用BERT预训练模型获取文本语料库中每个目标词的第一特征向量,以及每个预设种子词的第二特征向量;

基于所述目标词的第一特征向量、所述预设种子词的第二特征向量及所述文本语料库的分类标签集合,按照K均值聚类算法对所述目标词进行聚类分析,确定每个所述目标词的目标语义;

利用基于所述文本语料库中已确定目标词目标语义的文本与所述预设种子词构建得到的第一训练样本,对HAN模型进行训练,将训练后的HAN模型作为第一文本分类模型;

使用所述第一文本分类模型对所述文本语料库中的文本进行分类,并对所述文本添加分类标签;

根据预设的排序系数公式,确定所述目标词的分类语义,将确定了分类语义的所述目标词作为扩展种子词;

利用基于已添加分类标签的文本、所述预设种子词及所述扩展种子词构建得到的第二训练样本,训练HAN模型,将训练后的HAN模型作为第二文本分类模型;

使用所述第二文本分类模型根据待分类文本中所述预设种子词及所述扩展种子词出现的频次,对所述待分类文本进行分类,为所述待分类文本添加分类标签。

本申请的第二方面提供一种文本分类装置,包括:

特征提取模块,用于利用BERT预训练模型获取文本语料库中每个目标词的第一特征向量,以及每个预设种子词的第二特征向量;所述目标词为所述文本语料库中的任一词;所述预设种子词为预先从所述文本语料库中选取,且用于对所述文本语料库中各文本进行分类的词;所述第一特征向量用于表征所述目标词的上下文特征;所述第二特征向量用于表征所述预设种子词的上下文特征;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110838467.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top