[发明专利]一种基于机器学习的文本分类方法在审
申请号: | 202011544023.0 | 申请日: | 2020-12-24 |
公开(公告)号: | CN113157912A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 刘建雄;陈敏 | 申请(专利权)人: | 航天科工网络信息发展有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06K9/62;G06N20/10 |
代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 张然 |
地址: | 100854 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 文本 分类 方法 | ||
1.一种基于机器学习的文本分类方法,其特征在于,包括:
文本数据预处理、文本表示、特征降维、分类模型训练以及分类性能评估;
文本数据预处理具体包括:按照顺序需要对文本数据进行操作:文本标记、文本分词处理以及去除停用词处理;
文本表示包括:经过文本预处理之后,将文本表示成一种形式化数学描述,使之成为计算机能够识别的语言;
卡方统计算法引入词频因子,以及互信息算法引入调节因子,进行特征降维;
分类模型训练包括:采用SVM来进行分类,定义训练数据集中的两个类别中几何距离最近的两组数据为支持向量,超平面H就是与这两组分属于不同类别的数据连线的垂直平分线,而分类线H1与H2分别是指经过这两个类别中支持向量,首先寻找支持向量,通过训练集中不同类数据的几何距离来剔除大量冗余数据,根据保留的少量数据即支持向量,找到超平面H进行类别划分。
2.如权利要求1所述的基于机器学习的文本分类方法,其特征在于,文本标记的处理包括:文本中的表情符、图片或者链接非中文字符无法对文本分类提高直接且有用的帮助,进行删除。
3.如权利要求2所述的基于机器学习的文本分类方法,其特征在于,去除停用词包括:经过分词处理之后的文本数据仍然还存在许多功能词和停用词,对停用词和功能词进行额外删除。
4.如权利要求2所述的基于机器学习的文本分类方法,其特征在于,文本分词的处理包括:首先识别出中文语句中存在的标点符号或是某些汉语文字,并在这些出现位置上通过添加空格符实现切分效果并得到切分后的词条内容,相邻字通过统计学方法得到分布信息,如果得到统计值很高达到一定阈值时,就判定这组相邻的字就可能是一个词语。
5.如权利要求1所述的基于机器学习的文本分类方法,其特征在于,文本表示通过VSM模型表示成一种形式化数学描述,通过将文本中带有文本主题特征的那些词项表示成特征向量,每一个具有独立属性的词项所对应的一个特征向量就构成了这篇文本特征向量的一个维度,将文本转化成了空间中的一个高维特征向量。
6.如权利要求5所述的基于机器学习的文本分类方法,其特征在于,利用VSM模型对文本进行文本表示时,词项以及词项的权重将成为文本表示这个模型的组成部分,文本D就能被n个词项以及他们的权重值所组成的特征向量代表,表示形式如下:D={(t1,w1),(t2,w2),...,(ti,wj),...(tn,wn)},其中ti,wj分别是指对应的第i个特征词以及第i个特征词的权重值。
7.如权利要求1所述的基于机器学习的文本分类方法,其特征在于,卡方统计算法包括:
卡方统计算法公式基于词项的词频因子,其大小等于这个词项在该类别文档中出现的词频数与在全体文本数据集文档中存在该词项的文本频数大小的比值。其计算公式:
n(ti,cj)是指词项ti在类别结果为cj的文档中出现的次数,n(ti)是指在全体文本数据集文档中,文本中存在词项ti的文本频数;
词频因子α(ti)的大小由词项ti在某类别文档中出现的频数以及这个词项在全体文本数据集文档中出现的频数大小所决定。词频因子α(ti)数值越大,代表该词项ti只在这一个类别文档中出现的频率越高;词频因子α(ti)数值越小,代表该词项ti只在这一个类别文档中出现的频率越小,引入词频因子α(ti),利用卡方统计算法更容易找到对分类更有帮助的特征词。
8.如权利要求7所述的基于机器学习的文本分类方法,其特征在于,互信息算法包括:
提出基于词项的调节因子,大小等于该类别文档中存在这个词频的文本书与该类别文档中总文本数大小的比值,其计算公式如下:
D(ti,cj)是指在类别结果为cj的文档中存在词项ti的文本频数,d(cj)是指类别结果为cj的文档中的总文本频数;
调节因子D(ti,cj)的大小由在类别文档中存在词项ti的文本频数以及在这个类别文档中不存在词项ti的文本频数所决定,调节因子D(ti,cj)数值越大,代表在类别结果为cj的文档中出现存在词项ti的文本比例越高,反之越小,这样的词项在该类别文档中更可能是低频词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天科工网络信息发展有限公司,未经航天科工网络信息发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011544023.0/1.html,转载请声明来源钻瓜专利网。