[发明专利]文本分类方法、电子设备及计算机存储介质有效
| 申请号: | 202110757754.1 | 申请日: | 2021-07-05 | 
| 公开(公告)号: | CN113254655B | 公开(公告)日: | 2021-09-17 | 
| 发明(设计)人: | 杜军平;喻博文;邵蓥侠;徐欣;李昂 | 申请(专利权)人: | 北京邮电大学 | 
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/35 | 
| 代理公司: | 北京金咨知识产权代理有限公司 11612 | 代理人: | 秦景芳 | 
| 地址: | 100876 *** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 文本 分类 方法 电子设备 计算机 存储 介质 | ||
本发明提供了一种文本分类方法、电子设备及计算机存储介质,其中,该方法包括:获取多个话题类别及其对应的多个词和多个文档;统计每个话题类别的所有文档中包含该话题类别对应的每个词的第一文档数量和所有话题类别的所有文档中包含每个话题类别的每个词的第二文档数量;计算每个话题类别的每个词的第一文档数量与第二文档数量的比值,作为词对话题覆盖率;若词的词对话题覆盖率大于设定阈值,将该词选作相应话题类别的特征词,得到相应类别特征词袋;对待分类文档分词,以得到待分类文档的词袋模型;计算待分类文档的词袋模型与各类别特征词袋的相似度;根据各相似度确定该待分类文档的类别。通过上述方案能够利用较少标注完成文本分类任务。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本分类方法、电子设备及计算机存储介质。
背景技术
文本分类是一个传统的自然语言处理问题,具有很大的实用价值,是实现垃圾信息过滤、新闻自动归档、文本数据挖掘等多种任务的支撑技术。经典的文本分类问题是根据高质量的有标注文本进行学习后,对新文本赋予合理类别标签的过程。传统的文本分类方法关注文本的统计特征、浅层语义特征,如TF-IDF、n-gram模型、词嵌入等方式,并建立文本特征向量,结合分类算法实现文本分类任务,分类算法包括朴素贝叶斯、逻辑回归、支持向量机、决策树等等。近年来,随着深度学习的快速发展,由于其对特征的自动提取和端到端解决问题的优势,越来越多的深度学习模型应用于文本分类领域,包括卷积神经网络(CNN)、循环神经网络(RNN)、图卷积神经网络(GCN)、胶囊网络等等。然而这些方法和模型都需要大量的高质量的标注语料,另外还需要高性能硬件的支持,这些支持包括强大的CPU、GPU计算资源和大容量的内存。对于缺乏标注或缺少高性能机器的支持的情况,这些模型难以实现任务目标。
对于缺少标注的情况,大量半监督或无监督的方法也被提出。这些方法一般需要利用外部知识的帮助,例如使用Wikipedia作为背景知识,以及使用WordNet中的同义词信息,这些方法往往利用这些外部知识,同时结合主题建模实现文本分类任务。适合缺乏标注的场景,但分类性能较差。
传统文本分类模型,通过如词频向量、TF-IDF(词频-逆文档频率)向量等特征表示方法,经过文本特征工程,文本特征降维,将文本特征向量输入传统的分类模型中。此外,常见的基于深度学习技术进行文本分类的方法,利用深度卷积神经网络、循环神经网络或图卷积神经网络等模型提取文本的深度语义特征,端到端的解决文本分类问题。该些方法需要在人工提取特征的基础上进行大量的工作,或者通过深度神经网络进行深度特征提取。然而,传统的文本分类方法或基于深度学习的方法非常依赖于训练数据,难以应对缺乏标注的场景。并且,该类方法也需要高性能机器的支持,深度语言模型尤其依赖CPU和GPU计算资源,以及大容量的内存,难以应用于对时空复杂度敏感的任务中。
利用外部知识以及专家知识,例如Wikipedia作为外部背景知识,FAC-ALLKeyword算法使用专家知识提供类别关键词,使用WordNet提供同义词或近义词信息,使用Word Embedding技术寻找相似的词,通过构建类别词库以及使用主题模型LDA(LinearDiscriminant Analysis,线性判别分析)建模的方法,实现文本分类。
该些主要应用于缺乏标注的场景,需要大量的人工特征工程成本,依赖外部知识库、专家知识、同近义词知识等,自动化、智能化水平相对较低,在诸如精确率、召回率、f1分数等多个评价指标上,表现较差。
发明内容
有鉴于此,本发明提供了一种文本分类方法、电子设备及计算机存储介质,以利用较少标注完成文本分类任务。
为了达到上述目的,本发明采用以下方案实现:
根据本发明实施例的一个方面,提供了一种文本分类方法,包括:
获取多个话题类别和每个话题类别对应的多个词和多个文档;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110757754.1/2.html,转载请声明来源钻瓜专利网。





