[发明专利]文本分类方法和装置有效

申请号：	201911326228.9	申请日：	2019-12-20
公开（公告）号：	CN111078887B	公开（公告）日：	2022-04-29
发明（设计）人：	蒋卓;赵建强;黄剑;张辉极	申请（专利权）人：	厦门市美亚柏科信息股份有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/279;G06F40/242;G06N3/04;G06N3/08
代理公司：	厦门福贝知识产权代理事务所(普通合伙) 35235	代理人：	陈远洋
地址：	361000 福建省厦门市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本分类方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本分类方法，其特征在于，所述方法包括：

获取待分类文本；

对所述待分类文本进行分词，得到词语列表；

对所述待分类文本中的文字进行声调划分，得到声调组合列表；

确定所述词语列表中的每个词语的词向量，以及确定所述声调组合列表中的每个声调组合的声调向量，其中，从预设的词典中，确定与所述词语列表中的每个词语对应的词语标识；从预设的词向量集合中，确定与每个词语标识分别对应的词向量；从预设的声调字典中，确定与所述声调组合列表中的声调组合对应的声调组合标识；从预设的声调向量集合中，确定与每个声调组合对应的声调向量；

将所得到的词向量和声调向量输入预先训练的文本分类模型，得到用于表征所述待分类文本的类别的标签；

所述词典和所述词向量集合预先按照如下步骤得到：

对预设的语料库中的文本进行分词，得到每个文本的词语列表；

删除各个词语列表中的停用词，以及删除词频小于预设词频阈值的词语，集合剩余的所有词语，得到所述词典；

利用所述词典中的词语，通过机器学习方法，训练第一神经网络模型，得到所述词典中的每个词语对应的词向量，并将所得到的词向量组合为词向量集合；

所述声调字典和所述声调向量集合预先按照如下步骤得到：

确定所述语料库中的每个文本包括的文字的声调，得到每个文本的声调序列；

从每个声调序列中依次提取预设数量个相邻的声调，得到每个文本对应的声调组合列表，集合所有声调组合，得到声调字典；

利用所述声调字典中的词语，通过机器学习方法，训练第二神经网络模型，得到所述声调字典中的每个声调组合对应的声调向量，并将所得到的声调向量组合为声调向量集合。

2.根据权利要求1所述的方法，其特征在于，所述文本分类模型包括词向量卷积神经网络、声调向量卷积神经网络；以及

所述将所得到的词向量和声调向量输入预先训练的文本分类模型，得到用于表征所述待分类文本的类别的标签，包括：

将所得到的词向量输入所述词向量卷积神经网络，得到词特征数据；