[发明专利]文本分类方法和装置有效
| 申请号: | 201911326228.9 | 申请日: | 2019-12-20 |
| 公开(公告)号: | CN111078887B | 公开(公告)日: | 2022-04-29 |
| 发明(设计)人: | 蒋卓;赵建强;黄剑;张辉极 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/279;G06F40/242;G06N3/04;G06N3/08 |
| 代理公司: | 厦门福贝知识产权代理事务所(普通合伙) 35235 | 代理人: | 陈远洋 |
| 地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 分类 方法 装置 | ||
1.一种文本分类方法,其特征在于,所述方法包括:
获取待分类文本;
对所述待分类文本进行分词,得到词语列表;
对所述待分类文本中的文字进行声调划分,得到声调组合列表;
确定所述词语列表中的每个词语的词向量,以及确定所述声调组合列表中的每个声调组合的声调向量,其中,从预设的词典中,确定与所述词语列表中的每个词语对应的词语标识;从预设的词向量集合中,确定与每个词语标识分别对应的词向量;从预设的声调字典中,确定与所述声调组合列表中的声调组合对应的声调组合标识;从预设的声调向量集合中,确定与每个声调组合对应的声调向量;
将所得到的词向量和声调向量输入预先训练的文本分类模型,得到用于表征所述待分类文本的类别的标签;
所述词典和所述词向量集合预先按照如下步骤得到:
对预设的语料库中的文本进行分词,得到每个文本的词语列表;
删除各个词语列表中的停用词,以及删除词频小于预设词频阈值的词语,集合剩余的所有词语,得到所述词典;
利用所述词典中的词语,通过机器学习方法,训练第一神经网络模型,得到所述词典中的每个词语对应的词向量,并将所得到的词向量组合为词向量集合;
所述声调字典和所述声调向量集合预先按照如下步骤得到:
确定所述语料库中的每个文本包括的文字的声调,得到每个文本的声调序列;
从每个声调序列中依次提取预设数量个相邻的声调,得到每个文本对应的声调组合列表,集合所有声调组合,得到声调字典;
利用所述声调字典中的词语,通过机器学习方法,训练第二神经网络模型,得到所述声调字典中的每个声调组合对应的声调向量,并将所得到的声调向量组合为声调向量集合。
2.根据权利要求1所述的方法,其特征在于,所述文本分类模型包括词向量卷积神经网络、声调向量卷积神经网络;以及
所述将所得到的词向量和声调向量输入预先训练的文本分类模型,得到用于表征所述待分类文本的类别的标签,包括:
将所得到的词向量输入所述词向量卷积神经网络,得到词特征数据;
将所得到的声调向量输入所述声调向量卷积神经网络,得到声调特征数据;
对词向量和声调向量分别进行平滑处理,得到语义平均特征向量和语调平均特征向量;
利用所述词特征数据、所述声调特征数据、所述语义平均特征向量和所述语调平均特征向量进行分类,得到表征所述待分类文本的类别的标签。
3.根据权利要求2所述的方法,其特征在于,所述对词向量和声调向量分别进行平滑处理,得到语义平均特征向量和语调平均特征向量,包括:
确定所得到的各个词向量中的相同位置的元素的均值,得到语义平均特征向量;
确定所得到的各个声调向量中的相同位置的元素的均值,得到语调平均特征向量。
4.根据权利要求1-3之一所述的方法,其特征在于,所述文本分类模型预先按照如下步骤训练得到:
获取样本文本集合,其中,所述样本文本集合中的每个样本文本对应于预先标注的标签;
对于所述样本文本集合中的每个样本文本,对该样本文本进行分词,得到该样本文本对应的样本词语列表,并确定样本词语列表中的每个样本词语的样本词向量;对该样本文本中的文字进行声调划分,得到样本声调组合列表,并确定样本声调组合列表中的每个样本声调组合的样本声调向量;
将所述样本文本集合中的样本文本对应的样本词向量和样本声调向量作为输入,将输入的样本词向量和样本声调向量对应的标签作为期望输出,训练得到所述文本分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911326228.9/1.html,转载请声明来源钻瓜专利网。





