[发明专利]一种宽度神经网络模型的文本分类方法及相关组件在审

专利信息
申请号: 202010712976.7 申请日: 2020-07-22
公开(公告)号: CN111897961A 公开(公告)日: 2020-11-06
发明(设计)人: 杜杰;周艳红;韩婉婉;岳广辉;汪天富;刘鹏 申请(专利权)人: 深圳大学
主分类号: G06F16/35 分类号: G06F16/35;G06N3/04;G06N3/08
代理公司: 深圳市精英专利事务所 44242 代理人: 武志峰
地址: 518000 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 宽度 神经网络 模型 文本 分类 方法 相关 组件
【说明书】:

发明公开了一种基于宽度神经网络模型的文本分类方法及相关组件,所述方法包括:获取历史文本数据并进行预处理得到数据集{xi,yi},然后将所述数据集分为训练集和测试集;利用宽度学习系统分别对所述训练集中的单词的时序信息和重要信息进行学习,得到单词的最终时序信息Mk以及每个单词的增强节点;对所述最终时序信息Mk以及每个单词的增强节点进行级联,得到目标输入A;对所述目标输入A进行伪逆的岭回归近似计算,得到计算结果然后计算得到连接权重W,从而构建BLS‑RNN文本分类模型;利用所述测试集对所述文本分类模型进行测试;利用测试后的文本分类模型对目标文本进行分类。本发明通过综合考虑单词的时序信息和重要性,使文本分类更加有效准确。

技术领域

本发明涉及计算机软件技术领域,特别涉及一种宽度神经网络模型的文本分类方法及相关组件。

背景技术

文本分类是自然语言处理(NLP)中一个很经典也很重要的问题,它的应用很广泛,在很多领域发挥着重要作用,例如垃圾邮件过滤、舆情分析以及新闻分类等。与其他的分类问题一样,文本分类的核心问题首先是从文本中提取出分类数据的特征,然后选择合适的分类算法和模型对特征进行建模,从而实现分类。当然文本分类问题又具有自身的特点,例如文本分类需要先对文本进行分词等预处理,然后选择合适的方法对文本进行特征表示,最后构建分类器对其进行分类。

循环神经网络(RNN),是一种能够处理自然语言的深度神经网络,它将截止到当前时刻接收到的输入信息存储在记忆单元中。换句话说,RNN利用时序信息Mp来有效地处理自然语言。其中,Mp基于当前输入词Xp和之前学习过的信息Mp-1计算得到的。

在RNN中,为优化网络的权值、偏差等参数,采用基于梯度的训练方法。与前馈神经网络不同,RNN中模型的梯度值依赖于所有输入的历史数据。这种梯度可以通过一种称为“基于时间的反向传播算法”(BPTT)的迭代过程来计算。然而,使用BPTT训练的RNN在学习长句子的依赖关系(即相隔很远的两个单词之间的依赖关系)方面存在困难,这主要是由于发生了梯度消失和梯度爆炸问题。

LSTM是基于RNN设计的。在每个LSTM层(或LSTM模块)中,设计三个门,分别控制以下组件:输入(输入门)、存储单元(遗忘门)和输出(输出门)。然后将多个LSTM层叠加在一起,构成一个较深的LSTM网络。事实上,除了时序信息外,单词的重要性在文本分类等许多NLP任务中也扮演着重要的角色。例如,要识别一篇文章是否与某些感兴趣的话题相关(如经济)或不相关,一些相关的词(如公司、市场、经济等)是非常有用的,他们被认为比其他词更重要。因此,为了更有效地对文本进行分类,应同时考虑单词的重要性和时序信息,而现有技术中,还没有同时考虑单词的重要性和时序信息的技术方案。

发明内容

本发明实施例提供了一种基于宽度神经网络模型的文本分类方法、装置、计算机设备及存储介质,旨在通过同时考虑单词的重要性和时序信息来提高文本分类的有效性及准确性。

第一方面,本发明实施例提供了一种基于宽度神经网络模型的文本分类方法,所述方法包括:

获取历史文本数据并进行预处理得到数据集{xi,yi},x表示当前输入样本,y表示输入样本标签,其中,i=1~N,C是类别数量;然后将所述数据集分为训练集和测试集;

利用宽度学习系统分别对所述训练集中的单词的时序信息和重要信息进行学习,得到单词的最终时序信息Mk以及每个单词的增强节点;

对所述最终时序信息Mk以及每个单词的增强节点进行级联,得到目标输入A;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010712976.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top