[发明专利]一种中文文本分类模型的训练方法及装置在审
申请号: | 201810350019.7 | 申请日: | 2018-04-18 |
公开(公告)号: | CN108573047A | 公开(公告)日: | 2018-09-25 |
发明(设计)人: | 刘怡俊;林裕鹏 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06K9/62;G06N3/04 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张春水;唐京桥 |
地址: | 510060 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练文本 卷积神经网络 分类模型 中文文本 分词 词向量 预置 集合 标签 预处理 代价函数计算 方法表示 数据稀疏 文本表示 传统的 计算量 特征项 收敛 保存 返回 转换 | ||
本发明提供了一种中文文本分类模型的训练方法及装置,解决了传统的这些文本表示方法表示的特征项之间相互独立,而且数据稀疏,导致了计算量大的技术问题。其中方法,包括:S1、获取带标签的训练文本;S2、对所述训练文本进行预处理后,得到分词后的训练文本;S3、将所述分词后的训练文本输入至word2vec模型中,将所述分词后的训练文本转换为词向量集合;S4、将所述词向量集合以及所述训练文本的标签输入至卷积神经网络中进行训练,并通过预置代价函数计算所述卷积神经网络的loss值;S5、判断所述loss值是否低于预置阈值,若是,则确定所述卷积神经网络收敛,保存所述卷积神经网络的参数,并生成训练后的中文文本分类模型,若否,则返回步骤S1。
技术领域
本发明涉及文本分类技术领域,尤其涉及一种中文文本分类模型的训练方法及装置。
背景技术
上个世纪90年代以来,随着Internet的普及和网络技术的不断完善,Internet已经成为全球最庞大最丰富的信息资源库。根据最新CNNIC统计表明,截至2016年12月底,中国网页数量达到千亿个,网民规模突破6.88亿,互联网正成为人们日常生活基本资源。Internet的开放性使得各类信息都能在第一时间发布在Internet上,然而,Internet的这种开发性也导致了Internet上信息的杂乱性和冗余性。如何有效地组织和管理海量的非结构化的文本信息,并精准为用户实现信息定位是当前信息科学和技术领域面临的一大挑战,其中一个成功的范例就是根据信息的内容对信息进行自动分类。
自动分类技术在传统的信息手工分类基础上发展而来,作为一种有效的信息处理方式,将各类信息按照一定的分类体系进行整理,较大程度上解决了信息杂乱的问题。传统的手工信息分类技术虽已相当成熟,但显然不适于对时刻更新的Internet信息进行处理。80年代,“知识工程”(Knowledge Engineering)理论被用于指导文本分类,通过将专家知识人工的定义为一组规则,在给定类别的情况下根据这些规则进行分类。90年代后,“机器学习”(Machine Learning)逐渐发展成为文本分类的主流技术,其依靠一组提前人工标记好的分类文档,凭借一个诱导式的过程来学习感兴趣的类别特征,然后使用机器学习技术构造出文本自动分类器。中文是世界上使用人数最多的语言,随着信息时代的到来和知识经济的全球化,中文文本分类作用已经变得举足轻重。
近年来,深度学习模型在计算机视觉和语音识别方面取得了显著的成果,在自然语言处理领域,利用神经网络对自然语言文本信息进行特征学习和文本分类,也成为文本分类的前沿技术。现有的分类方法主要包括基于规则的分类模型,基于机器学习的分类模型,比较著名的文档分类方法有决策树(Decision Tree)、随机森林(Random Forest)、贝叶斯分类器(Bayes)、线性分类器(逻辑回归)、支持向量机(Support Vector Machine,SVM)、最大熵分类器等。它们都是始借助于机器学习方法,通过人工特征工程和浅层分类模型来进行文本分类。
文本分类(Text Classification)的任务是根据给定文档的内容或主题,自动分配预先定义的类别标签。对文档进行分类,一般需要经过文本表示和学习分类两个步骤。而如何把文档表示为算法能够处理的结构化数据,这无疑是文本分类的重要环节。对于文本的表示,传统的方法都是离散的表示,例如One-hot编码,也称之为独热编码,它意思是使用N位状态寄存器来对N个状态进行编码,每个状态都有他独立的寄存器位,在任何时候,其中只有一位有效。虽然这种表示使每一个词语有唯一的索引,但是这种编码会导致文本中每个词语在句子中的顺序没有关联性,而且随之建立的词典越大,这个编码的序列越长,数据也随之很稀疏。后来还有词袋模型(Bag of Words),它就是将文档向量表示可以直接将各词的词向量表示加和;N-gram模型,它就是将n个上下相邻的词语搭配编码,这样考虑了词的顺序,但是导致词表维度随着语料库增长膨胀,词序列也随语料库膨胀更快,数据稀疏问题等。
传统的这些文本表示方法表示的特征项之间相互独立,而且数据稀疏,导致了计算量大的技术问题。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810350019.7/2.html,转载请声明来源钻瓜专利网。