[发明专利]文本分类方法、装置、计算机设备和存储介质在审
| 申请号: | 201811258359.3 | 申请日: | 2018-10-26 |
| 公开(公告)号: | CN109543032A | 公开(公告)日: | 2019-03-29 |
| 发明(设计)人: | 徐冰;汪伟;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
| 代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 王宁 |
| 地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分类器 文本特征 文本分类 融合 预设 待分类文本 计算机设备 存储介质 文本类型 预先设置 标签 分类器输出 分类模型 特征输入 概率 申请 | ||
1.一种文本分类方法,所述方法包括:
从预先设置的文本特征库中选择文本特征组合,从待分类文本中提取与所述文本特征组合相应的融合特征;
根据所述文本特征组合,从预先设置的分类器库中选择多个预先训练的分类器;
根据所述分类器,得到融合分类器;
将所述融合特征输入所述融合分类器,得到多个预设标签的概率;所述预设标签对应一个文本类型;
根据概率最大的预设标签,确定所述待分类文本的文本类型。
2.根据权利要求1所述的方法,其特征在于,
训练分类器的步骤,包括:
从预先设置的语料库中选择已标注文本;
根据所述已标注文本的目标标签和预先设置的终止条件,训练分类器;
当所述分类器输出所述目标标签的概率满足所述终止条件时,得到已训练的所述分类器。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
提取所述已标注文本对应的多种所述文本特征组合;
将每一种所述文本特征组合依次输入所述分类器库中的各个已训练的所述分类器;
对所述各个已训练的所述分类器输出所述目标标签的概率进行排序,筛选出满足预设条件的分类器,建立所述文本特征组合与所述多个分类器的对应关系;
所述根据所述文本特征组合,从预先设置的分类器库中选择多个预先训练的分类器,包括:
根据所述文本特征组合查询所述对应关系,从预先设置的分类器库中选择多个预先训练的分类器。
4.根据权利要求1所述的方法,其特征在于,所述文本特征库中包括:文本长度特征、关键词词频特征、词向量相似度特征、TF-IDF权重特征、LDA模型的概率分布特征和消息来源特征;
所述从预先设置的文本特征库中选择文本特征组合,从待分类文本中提取与所述文本特征组合相应的融合特征,包括:
从文本特征库中选择文本长度特征、关键词词频特征、词向量相似度特征、TF-IDF权重特征、LDA模型的概率分布特征以及消息来源特征中的两个以上,得到文本特征组合;
从待分类文本中提取所述文本特征组合中的各个文本特征;
对所述各个文本特征进行组合,得到融合特征。
5.根据权利要求4所述的方法,其特征在于,所述待分类文本包括:标题文本和正文文本;
所述从待分类文本中提取与所述文本特征组合相应的融合特征,包括:
获取所述待分类文本的标题文本长度和正文文本长度;根据所述标题文本长度和所述正文文本长度,分别得到标题长度向量和正文长度向量;将所述标题长度向量和所述正文长度向量进行拼接,得到待分类文本的文本长度特征;
或,
获取预先设置的关键词表,根据所述关键词表匹配所述标题文本和所述正文文本,得到所述待分类文本中包含关键词表中关键词的词频;对所述词频进行向量化,得到关键词词频特征;
或,
获取所述标题文本的标题特征向量和正文文本的正文特征向量,对所述标题特征向量和所述正文特征向量进行拼接,得到词向量相似度特征;
或,
获取所述待分类文本中各个所述关键词在预设语料库中的TF-IDF权重,根据所述各个关键词的TF-IDF权重的均值,得到待分类文本的平均TF-IDF权重,对所述平均TF-IDF权重向量化,得到所述待分类文本的TF-IDF权重特征;
或,
将所述待分类文本输入预先设置的LDA模型,得到所述待分类文本属于各个预设主题的概率分布,将所述概率分布向量化,得到所述待分类文本的LDA模型的概率分布特征;
或,
获取所述待分类文本的消息来源,根据预先设置的编号规则,得到所述消息来源的来源编号,对所述来源编号进行向量化,得到消息来源特征。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述分类器,得到融合分类器,包括:
根据预先设置的加权算法,计算所述分类器中各个分类器的权值;
根据所述权值,对各个分类器进行加权得到融合分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811258359.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于多任务对抗学习的文本分类方法
- 下一篇:动态异质网络演化聚类分析方法





