[发明专利]文本分类方法和装置有效
| 申请号: | 201911326228.9 | 申请日: | 2019-12-20 |
| 公开(公告)号: | CN111078887B | 公开(公告)日: | 2022-04-29 |
| 发明(设计)人: | 蒋卓;赵建强;黄剑;张辉极 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/279;G06F40/242;G06N3/04;G06N3/08 |
| 代理公司: | 厦门福贝知识产权代理事务所(普通合伙) 35235 | 代理人: | 陈远洋 |
| 地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 分类 方法 装置 | ||
本申请实施例公开了文本分类方法和装置。该方法的一具体实施方式包括:获取待分类文本;对待分类文本进行分词,得到词语列表;对待分类本文中的文字进行声调划分,得到声调组合列表;确定词语列表中的每个词语的词向量,以及确定声调组合列表中的每个声调组合的声调向量;将所得到的词向量和声调向量输入预先训练的文本分类模型,得到用于表征待分类文本的类别的标签。该实施方式实现了将词向量和声调向量相结合,从词和声调两个维度分别提取文本的语义和语调特征,使用这些特征可以有效地改善字/词级特征存在的不足,提高文本分类的准确性。
技术领域
本申请实施例涉及计算机技术领域,具体涉及文本分类方法和装置。
背景技术
自然语言处理的经典任务之一是文本分类,也称文本分类。该任务的目的是为文本分配一个预定义的标签。文本分类的过程通常分为特征提取和标签分类两个阶段。在第一阶段,可以借助机器学习的模型对一些特定的单词组合(如双单词、三单词、词频或单词的逆文本频率)进行特征提取;第二阶段,通过这些特征提供的信息,计算机可以对文本的属性有一个相对客观的理解和判断。传统的文本分类任务都是在这套框架的指导下进行的。
而随着深度学习的发展,其端对端的思想对传统的文本分类方法产生了巨大的冲击。目前,有很多基于深度学习模型。例如,textCNN模型使用多窗口卷积核提取不同层次的语义特征,在文本分类上取得了很好地效果。FastText模型则是对整篇文本词的n-grams特征计算词向量,取平均得到文本的表示,然后直接进行分类,该模型在运行效率方面有优势。随后,研究的热点逐渐趋向于使用大规模语料库结合更深层的神经网络结构进行文本的预训练,BERT、ULMFiT和ERNIE等模型就是这方面的代表。
发明内容
本申请实施例提出了一种改进的文本分类方法和装置。
第一方面,本申请实施例提供了一种文本分类方法,该方法包括:获取待分类文本;对待分类文本进行分词,得到词语列表;对待分类本文中的文字进行声调划分,得到声调组合列表;确定词语列表中的每个词语的词向量,以及确定声调组合列表中的每个声调组合的声调向量;将所得到的词向量和声调向量输入预先训练的文本分类模型,得到用于表征待分类文本的类别的标签。
在一些实施例中,确定词语列表中的每个词语的词向量,以及确定声调组合列表中的每个声调组合的声调向量,包括:从预设的词典中,确定与词语列表中的每个词语对应的词语标识;从预设的词向量集合中,确定与每个词语标识分别对应的词向量;从预设的声调字典中,确定与声调组合列表中的声调组合对应的声调组合标识;从预设的声调向量集合中,确定与每个声调组合对应的声调向量。
在一些实施例中,词典和词向量集合预先按照如下步骤得到:对预设的语料库中的文本进行分词,得到每个文本的词语列表;删除各个词语列表中的停用词,以及删除词频小于预设词频阈值的词语,集合剩余的所有词语,得到词典;利用词典中的词语,通过机器学习方法,训练第一神经网络模型,得到词典中的每个词语对应的词向量,并将所得到的词向量组合为词向量集合。
在一些实施例中,声调字典和声调向量集合预先按照如下步骤得到:确定语料库中的每个文本包括的文字的声调,得到每个文本的声调序列;从每个声调序列中依次提取预设数量个相邻的声调,得到每个文本对应的声调组合列表,集合所有声调组合,得到声调字典;利用声调字典中的词语,通过机器学习方法,训练第二神经网络模型,得到声调字典中的每个声调组合对应的声调向量,并将所得到的声调向量组合为声调向量集合。
在一些实施例中,文本分类模型包括词向量卷积神经网络、声调向量卷积神经网络;以及将所得到的词向量和声调向量输入预先训练的文本分类模型,得到用于表征待分类文本的类别的标签,包括:将所得到的词向量输入词向量卷积神经网络,得到词特征数据;将所得到的声调向量输入声调向量卷积神经网络,得到声调特征数据;对词向量和声调向量分别进行平滑处理,得到语义平均特征向量和语调平均特征向量;利用词特征数据、声调特征数据、语义平均特征向量和语调平均特征向量进行分类,得到表征待分类文本的类别的标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911326228.9/2.html,转载请声明来源钻瓜专利网。





