[发明专利]基于智能决策的文本分类方法、装置、服务器及介质在审
| 申请号: | 201910007838.6 | 申请日: | 2019-01-04 |
| 公开(公告)号: | CN109857862A | 公开(公告)日: | 2019-06-07 |
| 发明(设计)人: | 金戈;徐亮 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 词袋模型 文本分类 文本 特征集合 训练文本 智能决策 构建 级联 分类 服务器 分类结果 分类识别 预设条件 速率和 森林 调用 申请 | ||
1.一种基于智能决策的文本分类方法,其特征在于,包括:
利用训练文本构建第一词袋模型;所述第一词袋模型包括所述训练文本中各评语文本的词特征;
从所述第一词袋模型的词特征中确定出满足预设条件的词特征集合,并根据所述词特征集合生成第二词袋模型;
通过所述第二词袋模型构建用于文本分类的级联森林模型;
在需要对待分类的目标评语文本进行分类识别时,调用所述级联森林模型对所述目标评语文本进行分类,得到对所述目标评语文本的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从指定平台获取评语文本集合;所述评语文本集合包括多个评语文本;
根据预设筛选规则的指示,从所述评语文本集合中筛选出训练文本;所述预设筛选规则包括以下任意一项或多项:无用评语文本筛选规则、评论时间筛选规则、文本长度筛选规则、评语文本类别筛选规则。
3.根据权利要求2所述的方法,其特征在于,所述预设筛选规则包括无用评语文本筛选规则,所述根据预设筛选规则的指示,从所述评语文本集合中筛选出训练文本,包括:
从评语文本集合中确定出无用评语文本,并删除所述评语文本集合中的所述无用评语文本;所述无用评语文本为以下任意一项或多项:恶俗评语文本、有用指数低于第一预设值的评语文本、无用指数高于第二预设值的评语文本、不属于分类类别和/或分类对象的评语文本;
将执行了删除操作的评语文本集合确定为训练文本。
4.根据权利要求2所述的方法,其特征在于,所述预设筛选规则包括评论时间筛选规则,所述根据预设筛选规则的指示,从所述评语文本集合中筛选出训练文本,包括:
获取所述评语文本集合中各个评语文本的评论时间;
从所述各个评语文本中确定出评论时间在预设时间范围内的评语文本,并将所述在预设时间范围内的评语文本确定为训练文本。
5.根据权利要求2所述的方法,其特征在于,所述预设筛选规则包括文本长度筛选规则,所述根据预设筛选规则的指示,从所述评语文本集合中筛选出训练文本,包括:
统计所述评语文本集合中各个评语文本的文本长度;
从所述各个评语文本中确定出文本长度大于预设文本长度的评语文本,并将所述文本长度大于预设文本长度的评语文本确定为训练文本。
6.根据权利要求5所述的方法,其特征在于,所述将所述文本长度大于预设文本长度的评语文本作为训练文本,包括:
删除所述文本长度大于预设文本长度的评语文本中,重复词语的数量大于预设数量的评语文本;
将执行了删除操作的所述文本长度大于预设文本长度的评语文本,作为训练文本。
7.根据权利要求1-6任意一项所述的方法,其特征在于,所述从所述第一词袋模型的词特征中确定出满足预设条件的词特征集合,并根据所述词特征集合生成第二词袋模型,包括:
对第一词袋模型中的词特征进行卡方运算,得到每个词特征的卡方值;
将每个词特征按照卡方值从高到低排序,选取前预设数量个词特征构建词特征集合,并生成包括所述词特征集合的第二词袋模型。
8.一种基于智能决策的文本分类装置,其特征在于,包括:
构建单元,用于利用训练文本构建第一词袋模型;所述第一词袋模型包括所述训练文本中各评语文本的词特征;
处理单元,用于从所述第一词袋模型的词特征中确定出满足预设条件的词特征集合,并根据所述词特征集合生成第二词袋模型;
所述构建单元,还用于通过所述第二词袋模型构建用于文本分类的级联森林模型;
所述处理单元,还用于在需要对待分类的目标评语文本进行分类识别时,调用所述级联森林模型对目标评语文本进行分类,得到对所述目标评语文本的分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910007838.6/1.html,转载请声明来源钻瓜专利网。





