[发明专利]一种文本分类方法及装置有效

申请号：	201711405321.X	申请日：	2017-12-22
公开（公告）号：	CN108228758B	公开（公告）日：	2020-09-01
发明（设计）人：	王亮;胡海青	申请（专利权）人：	北京奇艺世纪科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/36;G06F40/279
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	莎日娜
地址：	100080 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本分类方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种文本分类方法及装置，属于计算机技术领域。该方法可以确定待分类文本的分类信息，然后将分类信息作为文本分类模型的输入，通过文本分类模型对待分类文本进行分类，最后将分类结果确定为待分类文本的类别。其中，该文本分类模型是由第一特征和第二特征训练得到，第一特征是根据从训练集中抽取的特征词语的词向量确定的，第二特征是根据从训练集中抽取的实体词的词向量确定的。由于文本分类模型训练的过程中结合了训练集中的实体词特征，这样，在利用该文本分类模型进行分类时，可以识别出待分类文本中的实体词，提高文本分类的准确率。

技术领域

本发明属于计算机技术领域，特别是涉及一种文本分类方法及装置。

背景技术

随着移动终端技术的不断发展，网络系统的资源越来越多，为了方便用户进行查找，通常会对各种资源进行分类。比如，视频系统中，通常会对视频标题文本进行分类，进而实现对视频分类。

现有技术中，在对待分类文本进行分类时，通常是先对待分类文本进行分词，然后利用深度学习算法根据待分类文本对应的多个词语进行分类。

一般，标题文本中会包括实体词，该实体词能够反映该标题文本的类别，对标题文本的分类产生较大的影响。但是，由于现有技术中的深度学习算法在训练的过程中无法提取到样本文本中实体词的特征，进而导致在对待分类文本进行分类时，无法识别到待分类文本中的实体词，因此，分类的准确率较低。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的文本分类方法及装置。

依据本发明的第一方面，提供了一种文本分类方法，该方法可以包括：

确定待分类文本的分类信息；

将所述分类信息作为预设的文本分类模型的输入，通过所述文本分类模型对所述待分类文本进行分类；

将分类结果确定为所述待分类文本的类别；