[发明专利]一种文本分类方法及装置有效
| 申请号: | 201711405321.X | 申请日: | 2017-12-22 |
| 公开(公告)号: | CN108228758B | 公开(公告)日: | 2020-09-01 |
| 发明(设计)人: | 王亮;胡海青 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/279 |
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 分类 方法 装置 | ||
本发明提供了一种文本分类方法及装置,属于计算机技术领域。该方法可以确定待分类文本的分类信息,然后将分类信息作为文本分类模型的输入,通过文本分类模型对待分类文本进行分类,最后将分类结果确定为待分类文本的类别。其中,该文本分类模型是由第一特征和第二特征训练得到,第一特征是根据从训练集中抽取的特征词语的词向量确定的,第二特征是根据从训练集中抽取的实体词的词向量确定的。由于文本分类模型训练的过程中结合了训练集中的实体词特征,这样,在利用该文本分类模型进行分类时,可以识别出待分类文本中的实体词,提高文本分类的准确率。
技术领域
本发明属于计算机技术领域,特别是涉及一种文本分类方法及装置。
背景技术
随着移动终端技术的不断发展,网络系统的资源越来越多,为了方便用户进行查找,通常会对各种资源进行分类。比如,视频系统中,通常会对视频标题文本进行分类,进而实现对视频分类。
现有技术中,在对待分类文本进行分类时,通常是先对待分类文本进行分词,然后利用深度学习算法根据待分类文本对应的多个词语进行分类。
一般,标题文本中会包括实体词,该实体词能够反映该标题文本的类别,对标题文本的分类产生较大的影响。但是,由于现有技术中的深度学习算法在训练的过程中无法提取到样本文本中实体词的特征,进而导致在对待分类文本进行分类时,无法识别到待分类文本中的实体词,因此,分类的准确率较低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的文本分类方法及装置。
依据本发明的第一方面,提供了一种文本分类方法,该方法可以包括:
确定待分类文本的分类信息;
将所述分类信息作为预设的文本分类模型的输入,通过所述文本分类模型对所述待分类文本进行分类;
将分类结果确定为所述待分类文本的类别;
其中,所述文本分类模型是由第一特征和第二特征训练得到,所述第一特征是根据从训练集中抽取的特征词语的词向量确定的,所述第二特征是根据从所述训练集中抽取的实体词的词向量确定的。
可选的,所述分类信息为待分类文本中每个词语的词向量,所述待分类文本中的每个词语由多个第一词语和多个第二词语组成;
所述确定待分类文本的分类信息的步骤,包括:
按照第一预设分词方法,对所述待处理文本进行第一分词操作,得到多个第一词语;
按照第二预设分词方法,对所述待处理文本进行第二分词操作,得到多个第二词语;
根据每个第一词语与上下文的关系以及每个第二词语与上下文的关系,确定每个第一词语以及每个第二词语的词向量。
可选的,在所述将所述分类信息作为文本分类模型的输入,通过所述文本分类模型对所述待分类文本进行分类的步骤之前,所述方法还包括:
根据训练集确定文本分类模型;
其中,所述训练集中包括多个样本对,所述样本对由样本文本和所述样本文本的类别组成。
可选的,所述根据训练集确定文本分类模型的步骤,包括:
基于预设特征模板,从每个样本文本中确定至少一个特征样本词语的词向量;
对类别相同的样本文本对应的特征样本词语的词向量进行聚合,得到特征词向量簇;
将所述特征词向量簇和所述特征词向量簇对应的类别组合为第一特征;
确定每个样本文本中实体词的词向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711405321.X/2.html,转载请声明来源钻瓜专利网。





