[发明专利]基于正能量词典正能量新闻分类方法在审

专利信息
申请号: 202010645896.4 申请日: 2020-07-07
公开(公告)号: CN111813937A 公开(公告)日: 2020-10-23
发明(设计)人: 刘品呈 申请(专利权)人: 新华智云科技有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/36;G06F40/247;G06F40/284
代理公司: 杭州裕阳联合专利代理有限公司 33289 代理人: 姚宇吉
地址: 310012 浙江省杭州市*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 能量 词典 新闻 分类 方法
【说明书】:

发明公开了一种基于正能量词典正能量新闻分类方法,包括以下步骤:步骤1,使用正能量新闻语料,进行分词处理去掉停用词,采用tfidf算法获取正能量新闻语料的关键词词汇,人工从关键词词汇中筛选正能量关键词,构建初步的正能量词典;步骤2,使用word2vec算法,将正能量新闻语料词向量化,对初步的正能量词典的每个正能量关键词获取与其相近和共同出现的词汇,再通过同义词方式查找每个词汇的多个同义词扩建正能量词典;步骤3,通过albert获取新闻语料的特征词向量,采用深度学习textcnn+attention模型,处理得到深度学习的隐藏层。本发明的有益之处在于,相比传统的识别方法对新闻正能量文本识别的准确率高。

技术领域

本发明涉及一种基于正能量词典正能量新闻分类方法。

背景技术

现有结构化数据基于机器学习分类方法,主要任务是解决新闻文本正能量分类问题。其核心思想是通过文本分词,分词结果向量化表示,并采用机器学习方法分类,阈值区分,大于阈值的归于正能量,小于阈值的归于非正能量。

现有的分类方法,当新闻中很多负能量词汇存在时,导致最后正能量事件的转折权重无法有效的区分判别,最终使得新闻正能量文本的准确率不高。

发明内容

为解决现有技术的不足,本发明提供了一种基于正能量词典正能量新闻分类方法,使用正能量词典新词发现的方式,构建深度学习分类器的方法,解决现有技术方案中非正能量词汇带来的权重问题。

为了实现上述目标,本发明采用如下的技术方案:

一种基于正能量词典正能量新闻分类方法,包括以下步骤:

步骤1,使用正能量新闻语料,进行分词处理去掉停用词,采用tfidf算法获取正能量新闻语料的关键词词汇,人工从关键词词汇中筛选正能量关键词,构建初步的正能量词典;

步骤2,使用word2vec算法,将正能量新闻语料词向量化,对初步的正能量词典的每个正能量关键词获取与其相近和共同出现的词汇,再通过同义词方式查找每个词汇的多个同义词扩建正能量词典;

步骤3,通过albert获取新闻语料的特征词向量,采用深度学习textcnn+attention模型,处理得到深度学习的隐藏层;

步骤4,每篇文章会将含有正能量词典中的词通过word2vec词向量向量和,归一化后,同深度学习网络中的最后一层获取到的词向量,横向连接,实现正能量词典词向量和深度学习网络的词向量融合;

步骤5,融合后的词向量放入到最后一层分类模型后输出结果。

进一步地,通过同义词方式查找每个词汇的同义词的数目大于等于3且小于等于7。

进一步地,通过同义词方式查找每个词汇的同义词的数目为5。

进一步地,对正能量新闻语料通过jieba分词进行分词处理。

一种基于正能量词典正能量新闻分类方法,包括以下步骤:

步骤1,获取正能量新闻语料的关键词词汇并从中筛选正能量关键词构成初步的正能量词典;

步骤2,通过词向量化对初步的正能量词典的每个正能量关键词获取与其相近和共同出现的词汇,再通过同义词方式查找每个词汇的多个同义词扩建正能量词典;

步骤3,将正能量词典的词汇放入深度学习模型中,获得深度学习的隐藏层;

步骤4,每篇文章会将含有正能量词典中的词向量化后词向量向量和,归一化处理后,同深度学习网络中的最后一层获取到的词向量,横向连接,实现词典词向量和深度学习网络的词向量融合;

步骤5,融合后的词向量放入到最后一层分类模型后输出结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华智云科技有限公司,未经新华智云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010645896.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top