[发明专利]文本分类模型的生成装置、方法及计算机可读存储介质有效
申请号: | 201810361702.0 | 申请日: | 2018-04-20 |
公开(公告)号: | CN108804512B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 王健宗;吴天博;黄章成;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 模型 生成 装置 方法 计算机 可读 存储 介质 | ||
1.一种文本分类模型的生成装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的模型生成程序,所述模型生成程序被所述处理器执行时实现如下步骤:
获取基于收集的金融领域词汇构建的金融领域的分词词典,以及预设的金融领域的文本语料;
根据预设算法从所述文本语料中选择候选新词,添加至所述分词词典,所述根据预设算法从所述文本语料中选择候选新词,添加至所述分词词典的步骤包括:
基于所述分词词典,使用所述分词算法对所述文本语料进行分词处理,根据所述分词结果获取候选词集合;
计算所述候选词集合中各个候选词的信息增益,选择信息增益大于第一预设阈值的候选词作为第一候选新词,将所述第一候选新词添加到所述分词词典中;
基于添加了所述第一候选新词的分词词典,使用所述分词算法对所述文本语料进行分词,并使用分词处理后的文本语料训练词向量模型;
使用训练得到的词向量模型计算分词结果中的词与所述第一候选新词的语义相似度;
将语义相似度大于第二预设阈值的词作为第二候选新词,并将所述第二候选新词添加到所述分词词典中;其中各个候选词的信息增益计算公式如下:
上述公式中,P(Cj)表示类别Cj在数据集中出现的概率,P(ti)表示特征项ti出现在数据集中的概率,P(Cj|ti)表示特征项ti出现在判定为类别Cj的文档中的概率,表示特征项ti不出现的概率,表示特征项ti出现在不属于类别Cj的文档中的概率,|c|为类别的总数,其中类别是指情感倾向的分类,特征项是候选词,上述概率值都可以通过对候选词在文本语料中的统计情况计算得到;
获取样本集,按照预设情感倾向分类模式对所述样本集中的训练样本进行类别标注;
基于添加了候选新词的所述分词词典,使用预设的分词算法对所述样本集中的训练样本进行分词处理;
根据分词结果提取词向量,基于adaboost算法,将训练样本对应的词向量和标注的类别信息输入到预设的多个弱分类器中进行训练,将训练得到的多个弱分类器组合为金融领域的文本分类模型。
2.如权利要求1所述的文本分类模型的生成装置,其特征在于,所述处理器还可用于执行所述模型生成程序,以在所述将语义相似度大于第二预设阈值的词作为第二候选新词,并将所述第二候选新词添加到所述词词典的步骤之后,还实现如下步骤:
计算所述第二候选新词在文本语料中的词频,并将计算得到的词频作为该第二候选新词在所述分词词典中的权重。
3.如权利要求1或2中任一项所述的文本分类模型的生成装置,其特征在于,所述获取样本集,按照预设情感倾向分类模式对所述样本集中的训练样本进行类别标注的步骤包括:
获取样本集,并获取多个标注人按照预设情感倾向分类模式对样本集中的训练样本进行标注得到的多个标注信息,从所述多个标注信息中,选择出现次数最多的标注信息作为对应的训练样本的标注结果。
4.如权利要求1或2中任一项所述的文本分类模型的生成装置,其特征在于,所述弱分类器包括基于卷积神经网络算法的分类器、基于循环神经网络算法的分类器和基于长短期记忆网络算法的分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810361702.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种搜索召回方法、装置及电子设备
- 下一篇:大数据平台的自动可视化分析方法