[发明专利]一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法有效
| 申请号: | 202011169632.2 | 申请日: | 2020-10-28 |
| 公开(公告)号: | CN112199503B | 公开(公告)日: | 2023-04-28 |
| 发明(设计)人: | 宦海;严嘉宇;陈逸飞;李鹏程;朱蓉蓉;刘源 | 申请(专利权)人: | 南京信息工程大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/211;G06F40/289;G06F40/30;G06N3/0442;G06N3/08 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210044 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 特征 增强 平衡 bi lstm 中文 文本 分类 方法 | ||
本发明公开了一种基于特征增强的非平衡Bi‑LSTM的中文文本分类方法,首先,预先获取若干条中文文本;使用BERT预训练模型将获取的文本矢量化处理;其次,利用非平衡Bi‑LSTM网络提取文本的深层特征;然后,利用多层注意力机制从词、句两个层级对深层特征信息加以权重;最后,使用Softmax函数对文本进行分类。本发明简化了步骤,将预处理过程写入系统中,不需要人工对文本做初步处理;与传统的Bi‑LSTM网络相比,提高了对双向文本特征的获取能力,相比于现有技术能够更好地提高分类精度。
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法。
背景技术
随着网络技术的快速发展,海量的信息资源以文本的形式存在。如何对这些文本进行有效的分类,从海量的文本中快速、准确、全面的挖掘有效信息,已经成为了自然语言处理研究领域的热点之一。文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。文本分类技术在日常生活中具有广泛的应用,例如,对垃圾短信和邮件的过滤,对新闻的分组查阅等等。
近些年来,文本分类研究多注重分类模型的构建和优化。传统机器学习模型,如支持向量机、朴素贝叶斯、最大熵模型等,以及深度学习方法,如卷积神经网络(Convolutional Neural Networks,CNN)、长短时记忆网络(Long Short Term MemoryNetworks,LSTM)等都被广泛研究和运用。随着深度学习在计算机视觉和语音识别中取得的巨大成功,越来越多的研究尝试将深度学习应用到中文文本分类中。与传统的文本分类方法不同的是,深度学习方法通过深度神经网络模型来学习文本的词特征,进而构建文本特征以实现文本分类。基于深度神经网络模型的方法在中文文本分类任务中取得了比传统的机器学习模型更好的分类效果。
深度神经网络中的注意力机制模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐,从而增加部分区域的观察精细度的机制。注意力机制可以快速提取稀疏数据的重要特征,因而被广泛用于自然语言处理任务,特别是机器翻译。而自注意力机制是注意力机制的改进,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。
在此之前很多基于深度学习的模型都是使用更高层面的单元对文本或者语言进行建模,比如单词(word2vec),短语(phrases),句子(sentence)层面,或者对语义和语法结构进行分析。这些单词,语句,句子的知识往往是高维的,很难应用于神经网络中。
当前的文本分类方法认为文本中每一个特征对于分类的重要性相同,简单的用文本中所有的特征来表示文本特征,导致分类过程中存在较多的噪音特征。
现有的文本分类中,有的以词作为最小单元对语言进行建模,由于数据量大,文本长度长,导致单词层面的维度较高,神经网络的训练慢,付出的代价较高;有的易导致提取的文本特征单一,也难以涵盖文本所有的语义信息,并且没有重点关注对分类有明显贡献的特征,导致出现了分类过程中存在较多的冗余特征的问题。
发明内容
发明目的:本发明的目的提供一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法,不需要人工对文本做初步处理,且更好地提高分类精度。
技术方案:本发明所述的一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法,具体包括以下步骤:
(1)预先获取若干条中文文本;
(2)使用BERT预训练模型将获取的文本矢量化处理;
(3)利用非平衡Bi-LSTM网络提取文本的深层特征;
(4)利用多层注意力机制从词、句两个层级对深层特征信息加以权重;
(5)使用Softmax函数对文本进行分类。
进一步地,所述步骤(2)的实现过程如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011169632.2/2.html,转载请声明来源钻瓜专利网。





