[发明专利]基于最大间隔准则的网页文本分类系统有效
| 申请号: | 202110997675.8 | 申请日: | 2021-08-27 |
| 公开(公告)号: | CN113626604B | 公开(公告)日: | 2022-07-26 |
| 发明(设计)人: | 张莉;金玲彬;苏畅之;赵雷;王邦军 | 申请(专利权)人: | 苏州大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/957;G06F40/279 |
| 代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 王广浩 |
| 地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 最大 间隔 准则 网页 文本 分类 系统 | ||
本发明公开了一种基于最大间隔准则的网页文本分类系统,其包括:文本预处理模块,用于对原始文本数据进行预处理并提取文本数据;文本表示模块,用于结合文本的向量空间表示,计算特征项权重,对提取的文本数据进行表示;特征项排序模块,用于基于最大间隔准则对特征项进行相关性排序;文本分类模块,用于利用特征选择后的训练集文本构建分类模型,并利用所述分类模型对特征选择后的测试集文本进行分类。本发明基于最大间隔准则的网页文本分类系统在选择较少数量的特征项时,能够选择出更具有判别性的特征词,提高了网页文本分类的性能,具有适用性强,准确度高的优点。
技术领域
本发明涉及文本分类技术领域,特别涉及一种基于最大间隔准则的网页文本分类系统。
背景技术
文本数据作为人们表达和接收信息的主要媒介,在互联网的资源中占绝大多数。因此,高效地从海量的文本数据中挖掘出有价值的信息是非常有必要的。其中,文本分类作为一种文本处理技术,在主题检测、情感分析、垃圾邮件过滤和网页分类等领域有广泛的应用。特别是在网页分类任务中,在如此大的范围内搜索信息是一个很大的挑战,而将文档排列成不同的类别会减少用户查询的搜索空间。
基于机器学习技术的文本分类主要包括文本预处理、文本表示和加权以及分类等步骤。词袋模型结合文本的向量空间表示具有高维性和稀疏性,为了避免维数灾难并且获得良好的分类性能,在文本分类任务中进行特征降维是必要的。过滤式特征选择方法因其可解释性以及高效性得到了广泛的研究。在文本分类中,特征项在不同类别中的文档频率经常被用来评估特征项的相关性。Rehman等人在“Feature selection based on anormalized difference measure for text classification”中提出了归一化差异度量(Normalized Difference Measure,NDM)。该方法通过考虑特征项的相对文档频率大小,解决了特征项类间文档频率相等,但相关性程度不同的问题。Rehman等人在“Selection ofthe most relevant terms based on a max-min ratio metric for textclassification”中提出了最大最小比方法(Max-Min Ratio,MMR)。MMR通过取特征项类间文档频率最大的方式来降低稀有词的权重。Kyoungok Kim等人在“Trigonometriccomparison measure:A feature selection method for text categorization”中提出了三角比较度量(Trigonometric Comparison Measure,TCM)。TCM在考虑了特征项在不同类别中的文档频率的同时,通过参数k来控制提高只出现在一类中特征项的权重。上述算法在文本语料库很大、语料库类高度不平衡或者稀有词较多的情况下,参数的设置是一个挑战。
发明内容
本发明要解决的技术问题是提供一种性能好、准确度高的基于最大间隔准则的网页文本分类系统。
为了解决上述问题,本发明提供了基于最大间隔准则的网页文本分类系统,其包括以下步骤:
文本预处理模块,用于对原始文本数据进行预处理并提取文本数据;
文本表示模块,用于结合文本的向量空间表示,计算特征项权重,对提取的文本数据进行表示;
特征项排序模块,用于基于最大间隔准则对特征项进行相关性排序;
文本分类模块,用于利用特征选择后的训练集文本构建分类模型,并利用所述分类模型对特征选择后的测试集文本进行分类。
作为本发明的进一步改进,所述结合文本的向量空间表示,计算特征项权重,对提取的文本数据进行表示,包括:
S11、结合文本的向量空间表示,选择词t作为文本的特征项;
S12、输入的文本语料库包含N个文档和M个特征项,从文本语料库中统计出文档频次矩阵和词频矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110997675.8/2.html,转载请声明来源钻瓜专利网。





