[发明专利]一种基于改进特征选择的电力文本分类方法在审
申请号: | 201910561443.0 | 申请日: | 2019-06-26 |
公开(公告)号: | CN110287321A | 公开(公告)日: | 2019-09-27 |
发明(设计)人: | 邓松;徐雨楠;岳东;朱博宇;吴新新 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31;G06F16/36 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 张玉红 |
地址: | 210033 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征选择 文本分类 词语 数据分类 次特征 算法 文本 特征选择算法 数据分类器 文本关键词 传统文本 电力领域 数据特征 预处理器 再次利用 处理器 选中 改进 分类 | ||
1.一种基于改进特征选择的电力文本分类方法,其特征在于:
所述电力文本分类方法,使用的设备包括词典构造器、数据分类预处理器、数据特征处理器和数据分类操作核心;
所述电力文本分类方法的执行过程主要包含以下步骤:
步骤1:利用电力领域相关文档建立一个电力领域词典;
步骤2:对待处理文本进行预处理,根据停用词表删除其中的一些不影响文本大意的词语;
步骤3:对步骤2中进行过预处理过的文本利用电力领域词典进行分词;
步骤4:对步骤3分过词后的文本利用tf-idf算法寻找文本中的关键词;
步骤5:先对步骤4中得到的关键词与电力领域词典进行对比,留下重复最多的数个关键词;
步骤6:利用word2vec算法对文本进行词向量语义分析,找寻和步骤5中得到的关键词词意最近的一组词;
步骤7:再次利用tf-idf算法,对步骤6中得到的一组词进行计算,如果其结果达到先设计的阈值,则将其也作为关键词;
步骤8:利用文本分类器对训练集进行训练,得出训练好的文本分类器;
步骤9:使用步骤8中训练好的文本分类器对步骤7中的进行过特征选择的待处理文本集进行分类;
步骤10:结束。
2.根据权利要求1所述的一种基于改进特征选择的电力文本分类方法,其特征在于:所述词典构造器,构造一个电力领域词典,这个词典是一系列与电网领域相关的、按照首字母拼音排序的词语组合,在进行分类的时候可以借助该词典进行更加准确地寻找到需要的词语。
3.根据权利要求1所述的一种基于改进特征选择的电力文本分类方法,其特征在于:所述数据分类预处理器,根据电力领域词典和停用词表,对待分类的测试文本进行文本的预处理,去除掉文本的一些无意义的词语与数字符号等。
4.根据权利要求1所述的一种基于改进特征选择的电力文本分类方法,其特征在于:所述停用词表,指那些在文本中经常出现的词汇,例如英文中的‘a’,‘the’等,中文中的‘的’,‘啊’,还有一些数字和符号,这些词汇被收集到一个称为停用词表的集合中。
5.根据权利要求4所述的一种基于改进特征选择的电力文本分类方法,其特征在于:由于电力领域的特殊性,其文本中必然含有大量的数字和符号,本方法中建立一个数据统计知识规则库,是否将某数字或符号填入停用词表设置一个阈值,通过和这个阈值的比较来确认是否将文本中的一些数字和符号加入停用词表。
6.根据权利要求1所述的一种基于改进特征选择的电力文本分类方法,其特征在于:所述数据特征处理器,对进行预处理过后的文本需要进行文本分词的处理,所述数据特征处理器通过tf-idf算法对进行分词后的文本进行特征选择找到能代表文本的关键词,再通过利用word2vec算法计算与关键词词意相近的词,再次使用tf-idf算法对这些相近的词进行计算,找到同样能代表文本的关键词。
7.根据权利要求1所述的一种基于改进特征选择的电力文本分类方法,其特征在于:所述数据分类操作核心包括了在数据进行特征选取后,数据分类时所需的所有具体操作。
8.根据权利要求1所述的一种基于改进特征选择的电力文本分类方法,其特征在于:所述步骤3和步骤7中的tf-idf算法,具体地,设其中a为该词在文章中出现的次数,b文章的总词数,c为语料库的文档总数,e为包含该词的文档数,分母加1是为了避免分母为0的情况出现,计算该词tf×idf的值,选择计算结果最大的一些词语作为关键词。
9.根据权利要求1所述的一种基于改进特征选择的电力文本分类方法,其特征在于:所述步骤4中,使用word2vec算法寻找与tf-idf算法所得关键词最为相近的一些词语,所述word2vec是一个将单词转换成向量形式,计算出向量空间上的相似度,来表示文本语义上的相似度的一个算法;本方法使用word2vec算法中的skip-grim模型,该模型是用一个词语作为输入,来预测它周围的上下文;这个模型的实质就是求两个词语的相似度uxTvc,vc代表目标词语的词向量,ux代表除目标词语外第x个词语的词向量,其中vc=Wwc,W表示目标词语的矩阵,W是一个d×V的矩阵,其中V代表所有词语的数量,d代表该目标词语的维数,wc表示目标词语的one-hot向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910561443.0/1.html,转载请声明来源钻瓜专利网。