[发明专利]文本分类模型构建、文本分类方法及装置在审
| 申请号: | 202110322136.4 | 申请日: | 2021-03-25 |
| 公开(公告)号: | CN112948586A | 公开(公告)日: | 2021-06-11 |
| 发明(设计)人: | 谢先招;向修海 | 申请(专利权)人: | 武汉优品楚鼎科技有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/242;G06F40/30;G06N20/00 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 盛明星 |
| 地址: | 430000 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 分类 模型 构建 方法 装置 | ||
本发明提供一种文本分类模型构建、文本分类方法及装置,所述文本分类模型构建方法包括:构建情感词典;基于情感词典对预先标注文本数据进行数据清洗,得到中性文本数据集与非中性文本数据集;非中性文本数据集包括利好文本数据集及利空文本数据集,基于中性文本数据集与非中性文本数据集对第一文本分类模型进行训练,得到中性/非中性二分类器;基于利好文本数据集及利空文本数据集对第二文本分类模型进行训练,得到利好/利空二分类器。文本分类方法中,基于所得到的文本分类模型对待测文本数据进行分类,提高了分类准确度,同时提升对于文本数据的分类效率。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文本分类模型构建、文本分类方法及装置。
背景技术
随着移动互联网时代的到来,内容的生产和传播都发生了深刻的变化,为了满足信息爆炸背景下用户的多样化需求,迫切需要对文本信息进行有效的组织,文本分类是数据挖掘和信息检索领域研究的热点和核心技术。
在对文本进行分类时主要是基于文本中的词频特征构建文本分类模型,进而基于构建的文本分类模型对待分类文本进行文本分类。在模型实际应用中存在有文本分类模型对待测文本数据分类不准确以及分类效率低下的问题,现有技术中尚未提出一种可以有效实现情感分类的文本分类模型。
发明内容
本发明提供一种文本分类模型构建、文本分类方法及装置,用以解决现有技术中对文本数据分类准确度不高,分类效率低下的缺陷,实现对于文本数据的快速精准分类过程。
本发明提供一种文本分类模型构建方法,包括:构建情感词典;
基于所述情感词典对预先标注文本数据进行数据清洗,得到中性文本数据集与非中性文本数据集;其中,所述非中性文本数据集包括利好文本数据集及利空文本数据集,且所述中性文本数据集中的文本数据具有预设第一特征,所述利好文本数据集中的文本数据具有预设第二特征,所述利空文本数据集中的文本数据具有预设第三特征;
基于所述中性文本数据集与所述非中性文本数据集对第一文本分类模型进行训练,得到中性/非中性二分类器;基于所述利好文本数据集及所述利空文本数据集对第二文本分类模型进行训练,得到利好/利空二分类器。
根据本发明提供的一种文本分类模型构建方法,构建情感词典,具体包括:对人工标注非中性文本数据进行分词处理,获取词性为动词的关键词,基于所述关键词形成关键词集合,基于所述关键词集合获取正面情感词和负面情感词,基于所述正面情感词和所述负面情感词构建所述情感词典;其中,所述正面情感词具备预设第四特征,所述负面情感词具备预设第五特征。
根据本发明提供的一种文本分类模型构建方法,所述基于所述关键词形成关键词集合,具体包括:对所述关键词的词频进行统计,基于所述关键词的词频筛选所述关键词集合中的关键词,基于筛选后的所述关键词构建所述关键词集合。
根据本发明提供的一种文本分类模型构建方法,所述基于所述情感词典对预先标注文本数据进行数据清洗,得到中性文本数据集与非中性文本数据集,具体包括:若所述预先标注文本数据包含所述正面情感词或所述负面情感词,则标记所述预先标注文本数据为非中性文本数据;否则,标记所述预先标注文本数据为中性文本数据;
若所述预先标注文本数据以问号为结尾,且所述预先标注文本数据无其他分句,则标记所述预先标注文本数据为中性文本数据;
若所述预先标注文本数据包含两个分句,且其中一个分句包含一个所述正面情感词,另一个分句包含一个所述负面情感词,则标记所述预先标注文本数据为中性文本数据;
若所述预先标注文本数据包含预设奇异词,则标记所述预先标注文本数据为非中性文本数据;
若所述预先标注文本数据包含所述正面情感词或所述负面情感词,且所述正面情感词和所述负面情感词的个数不同,则标记所述预先标注文本数据为非中性文本数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉优品楚鼎科技有限公司,未经武汉优品楚鼎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110322136.4/2.html,转载请声明来源钻瓜专利网。





