[发明专利]文本分类模型的生成装置、方法及计算机可读存储介质有效
申请号: | 201810361702.0 | 申请日: | 2018-04-20 |
公开(公告)号: | CN108804512B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 王健宗;吴天博;黄章成;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 模型 生成 装置 方法 计算机 可读 存储 介质 | ||
本发明公开了一种文本分类模型的生成装置,包括存储器和处理器,存储器上存储有可在处理器上运行的模型生成程序,该程序被处理器执行时实现如下步骤:获取金融领域的分词词典以及金融领域的文本语料;从文本语料中选择候选新词添加至分词词典;获取样本集并对样本集中的训练样本进行类别标注;基于添加了候选新词的分词词典,使用预设的分词算法对样本集中的训练样本进行分词并提取词向量,基于adaboost算法,将词向量和标注的类别信息输入到多个弱分类器中训练,得到文本分类模型。本发明还提出一种文本分类模型的生成方法以及一种计算机可读存储介质。本发明解决了现有技术中无法实现对金融领域文本进行情感倾向性的分类的问题。
技术领域
本发明涉及文本分类技术领域,尤其涉及一种文本分类模型的生成装置、方法及计算机可读存储介质。
背景技术
随着互联网和信息技术的发展,越来越多的机构和个人通过互联网途径以各种方式发表对各种事物的观点、态度和立场,如各种新闻评论、论坛以及社交网站等。这些海量的信息对于电子商务、市场预测等各个方面具有一定的商业价值,特别是金融行业,是互联网信息增长最快,受影响最大的行业,因此,对金融文本信息进行情感倾向分析以进行更加深入的研究逐渐成为重要课题。
文本情感倾向性分析是属于文本情感分析的一部分,通过情感倾向性分析,可以掌握本文的褒贬性倾向,对于金融领域来说,新闻舆情是体现市场和行业的景气程度以及投资者的交易热情的重要指标,因此,对金融领域的文本的情感倾向性的分析对于金融时长的研究具有剧组轻重的影响,但是现有技术中还缺乏实现对金融领域文本进行情感倾向的分类的方案,导致无法实现对金融领域文本进行情感倾向性的分类。
发明内容
本发明提供一种文本分类模型的生成装置、方法及计算机可读存储介质,其主要目的在于提出一种可以用于金融领域文本的情感倾向分类的文本分类模型的生成装置,以解决现有技术中无法实现对金融领域文本进行情感倾向性的分类的问题。
为实现上述目的,本发明提供一种文本分类模型的生成装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的模型生成程序,所述模型生成程序被所述处理器执行时实现如下步骤:
获取基于收集的金融领域词汇构建的金融领域的分词词典,以及预设的金融领域的文本语料;
根据预设算法从所述文本语料中选择候选新词,添加至所述分词词典;
获取样本集,按照预设情感倾向分类模式对所述样本集中的训练样本进行类别标注;
基于添加了候选新词的所述分词词典,使用预设的分词算法对所述样本集中的训练样本进行分词处理;
根据分词结果提取词向量,基于adaboost算法,将训练样本对应的词向量和标注的类别信息输入到预设的多个弱分类器中进行训练,将训练得到的多个弱分类器组合为金融领域的文本分类模型。
可选地,所述根据预设算法从所述文本语料中选择候选新词,添加至所述分词词典的步骤包括:
基于所述分词词典,使用所述分词算法对所述文本语料进行分词处理,根据所述分词结果获取候选词集合;
计算所述候选词集合中各个候选词的信息增益,选择信息增益大于第一预设阈值的候选词作为第一候选新词,将所述第一候选新词添加到所述分词词典中;
基于添加了所述第一候选新词的分词词典,使用所述分词算法对所述文本语料进行分词,并使用分词处理后的文本语料训练词向量模型;
使用训练得到的词向量模型计算分词结果中的词与所述第一候选新词的语义相似度;
将语义相似度大于第二预设阈值的词作为第二候选新词,并将所述第二候选新词添加到所述分词词典中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810361702.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种搜索召回方法、装置及电子设备
- 下一篇:大数据平台的自动可视化分析方法