[发明专利]用于对文本进行分类的方法和装置、存储介质及处理器有效
| 申请号: | 201811150647.7 | 申请日: | 2018-09-29 | 
| 公开(公告)号: | CN110990559B | 公开(公告)日: | 2023-08-04 | 
| 发明(设计)人: | 戚成琳 | 申请(专利权)人: | 北京国双科技有限公司 | 
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289 | 
| 代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 肖冰滨;王晓晓 | 
| 地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 用于 文本 进行 分类 方法 装置 存储 介质 处理器 | ||
本发明实施例提供一种用于对文本进行分类的方法和装置、存储介质及处理器,属于计算机技术领域。该方法包括该方法包括:对待分类的文本进行分词;基于词向量模型确定对待分类的文本进行分词得到的每个词语对应的词向量,并将属于一句话的词语对应的词向量组成一个矩阵;基于句子向量模型对每一矩阵进行处理以获得每一矩阵对应的句子向量;以及基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量,并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型,以实现对待分类的文本进行分类。藉此,实现了克服对短文本进行分类时构建的词频或者特征矩阵十分稀疏及忽略词与词之间关系的缺陷,提高了对文本进行分类的效果。
技术领域
本发明涉及计算机技术领域,具体地涉及用于对文本进行分类的方法和装置、存储介质及处理器。
背景技术
文本分类是自然语言处理中的一项基本任务,包括句子级别和篇章级别的文本分类,即短文本分类和长文本分类。文本分类的应用非常广泛,常见的应用场景包括垃圾邮件分类、情感分析、新闻主题分类等。而对短文本分类来说,最主要的应用就是自动问答系统和搜索引擎中的query分类。传统的文本分类方法首先进行文本预处理、然后进行特征提取、接着进行分类器选取及训练。文本预处理通常是对文本进行分词、去停用词、词性标注等。常规的特征通常使用TF-IDF,也包括其他特征,通常对特征进行强度计算后进行筛选。接着选取合适的分类器进行模型训练,常用的分类器模型包括朴素贝叶斯、逻辑回归、SVM等。这些传统的分类方法在篇章级别的文本分类中取得了很好的效果,但是对于query这种短文本来说效果受到了制约。query是指用户在搜索引擎或问答系统中输入的一些查询短句,这些query常常存在输入不规范、以短句的形式呈现等特性。比如“北京今天的天气怎么样啊”,分词并去除停用词后只剩“北京、天气、怎么样”三个词。对于这样的短文本,传统方法以分词结果作为特征词,显然特征词数量非常少,同时这种方式意味着忽略了词与词之间的关系,并且文本短小意味着统计特性也非常微弱,当我们在做大规模的query短文本分类的时候,由于这些短文本可提供的词语少,所以根据分词结果构建的词频或者特征矩阵通常十分稀疏,而大多数分类算法在处理稀疏矩阵时效果都不理想。因此,现有技术中,通常以词频相关的信息为特征,比如TF-IDF。但由于query问句一般是短文本且不规范,分词、去停用词等预处理之后可提供的词语非常少,构建的特征矩阵非常稀疏,再加上缺少语义、词序等信息,因此导致分类的效果并不理想。
发明内容
本发明的目的是提供一种用于对文本进行分类的方法和装置、存储介质及处理器,其可解决或至少部分解决上述问题。
为了实现上述目的,本发明的一个方面提供一种用于对文本进行分类的方法,该方法包括:对待分类的文本进行分词;基于词向量模型确定对待分类的文本进行分词得到的每个词语对应的词向量,并将属于一句话的词语对应的词向量组成一个矩阵;基于句子向量模型对每一矩阵进行处理以获得每一矩阵对应的句子向量;以及基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量,并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型,以实现对所述待分类的文本进行分类。
可选地,在所述基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型之前,该方法还包括:基于权重模型确定每一词语在其所属的句子中的权重;以及将每一句子中的每一词语的权重应用到该每一句子对应的句子向量中,其中,基于句子分类模型进行处理的句子向量为被应用权重后的句子向量。
可选地,在所述基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型之前,该方法还包括:对每一句子向量进行处理,以使得每一句子向量的维度为预设维度。
可选地,所述词向量模型为Word Embeddings模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811150647.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种GRF8基因及其应用
 - 下一篇:超市待售商品录入方法
 





