[发明专利]基于五笔码的字符级文本分类方法在审

申请号：	201910404059.X	申请日：	2019-05-15
公开（公告）号：	CN110059192A	公开（公告）日：	2019-07-26
发明（设计）人：	吕学强;游新冬;董志安;张乐	申请（专利权）人：	北京信息科技大学
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	暂无信息	代理人：	暂无信息
地址：	100192 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	笔码文本分类英文字符串表示模型中文文本分类传统模型分类效果输入字符五笔字型中文字符字符转化有效地分词应用转换中文转化学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于五笔码的字符级文本分类方法，采用五笔字型码对中文进行转换的字符级表示模型，采用五笔码将中文字符转化成唯一的英文字符串，再将英文字符串输入字符级模型中进行分类。本发明提供的基于五笔码的字符级文本分类方法，采用字符级表示模型，无需分词且能进行很好的字符转化，在中文文本分类中有着特殊的优势，分类效果明显优于传统模型和其他深度学习模型，可以有效地应用于中文文本分类，可以很好地满足实际应用的需要。

技术领域

本发明属于文本处理技术领域，具体涉及一种基于五笔码的字符级文本分类方法。

背景技术

文本分类是自然语言处理中最普遍的一种应用，是对文本数据信息进行筛选、整理和组织的关键技术，得到了研究者的广泛关注。过去一段时间里，自然语言处理中文本分类领域的主流研究方向是以词为基本单位的，中文文本的预处理一般以分词为主。因此，在中文自然语言处理领域，分词成为了一个基础性的研究。然而，不同的分词算法在歧义识别、分词准确性、算法复杂度、实施难度等不同方面有一定的局限性。随着近年来深度学习在各个领域广泛应用，越来越多的研究者开始研究以字符为单位的模型。使用字符级模型可以替代传统的中文分词方法，无需分词的字符级模型解决了分词算法中效率不高和通用性不强的问题。同样，字符级模型在处理中文时也有其自身的问题，中文字符总量远大于英文字符总量，在使用同样的字符级模型时，直接输入中文字符进行分类的效果甚至不如传统模型。

不同于英文文本有天然的空格将单词分开，中文文本没有词的界限。因此，在中文文本分类中，首先要对文本数据进行分词。目前用于分词的算法主要分为以下几类：词典分词算法、理解分词算法、统计分词算法、组合分词算法。其中，词典分词算法在歧义识别和新词发现方面表现较差，准确率也一般；理解分词算法则需要构建规则库，算法较为复杂，技术不成熟，因此实施困难而且分词速度慢；而统计分词算法也有算法复杂度较高且分词速度一般的缺点。鉴于单独的分词算法有各自的缺点，研究者们采用了组合方法。

然而，分词阶段造成的误差会在之后的语义理解过程中被放大并最终影响分类结果，所以目前的分词方法在面对大规模语料时表现并不理想。另外，分词算法的通用性也是一个亟待解决的问题。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于提供一种可避免出现上述技术缺陷的基于五笔码的字符级文本分类方法。

为了实现上述发明目的，本发明提供的技术方案如下：

一种基于五笔码的字符级文本分类方法，采用五笔字型码对中文进行转换的字符级表示模型。

进一步地，所述字符级表示模型包括：

假设有一个离散的输入函数g(x)∈[1，l]→R和一个离散的核函数f(x)∈[1，k]→R；在f(x)和g(x)之间的卷积的步幅d被定义为

其中，c＝k-d+1是一个偏移常数；该模型的参数化是通过一组被称为权重的内核函数f_ij(x)(i＝1，2，...，m；j＝1，2，...，n)，还有一组输入g_i(x)和输出h_j(y)；把每个g_i或h_j称作输入或输出特征，m或n称为输入或输出的特征大小；

给定一个离散的输入函数g(x)∈[1，l]→R，g(x)的最大池化函数被定义为：

其中，c＝k-d+1是一个偏移常数。

进一步地，该模型中使用的非线性函数为阈值函数h(x)＝max{0，x}，该模型采用随机梯度下降算法，使用的动量大小为0.9和初始步长大小为0.01，每一层都有一个固定数量的随机抽样样本。

进一步地，所述字符级表示模型使用一系列编码字符作为输入。