[发明专利]基于依存关系、词性和语义词典的类中心向量文本分类法有效
| 申请号: | 201810496803.9 | 申请日: | 2018-05-22 | 
| 公开(公告)号: | CN108763402B | 公开(公告)日: | 2021-08-27 | 
| 发明(设计)人: | 朱新华;徐庆婷;吴田俊 | 申请(专利权)人: | 广西师范大学 | 
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 | 
| 代理公司: | 南宁东智知识产权代理事务所(特殊普通合伙) 45117 | 代理人: | 巢雄辉;汪治兴 | 
| 地址: | 541004 广西壮*** | 国省代码: | 广西;45 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 基于 依存 关系 词性 语义 词典 中心 向量 文本 分类法 | ||
本发明涉及自然语言处理中的文本分类,具体是一种基于依存关系、词性和语义词典的类中心向量文本分类法。针对基于统计学的特征选择算法的语义缺陷,本发明引入依存关系、语义词典、词性对文本特征进行优化与聚类,提出了改进的权重计算公式,进而提出了改进的类中心向量文本分类方法。本发明的文本分类法同时兼顾了传统类中心向量法的高分类效率与K最近邻算法的高分类精度二方面的优点,可广泛应用于各类分类系统中。
技术领域
本发明涉及自然语言处理中的文本分类,具体是一种基于依存关系、词性和语义词典的类中心向量文本分类法。
背景技术
随着计算机技术的飞速发展,特别是在“互联网+”的时代背景下,诸如文档、图片、音频和视频等网络信息以指数形式爆炸性增长,日常生活中每天都会产生大量的以电子文件形式存在的数据,人们如何从海量数据中获取想要的信息是当前研究的热点和难点,文本分类是其中的一个重要研究方向。
文本分类是文本处理技术里的一个重要研究方向,始于20世纪50年代,它是集语言学、数学、计算机科学和认知科学等于一体的综合性技术。20世纪50年代末,美国IBM公司的技术员H.P.Luhn将词频概念引入自动文本分类领域,主要思想是利用词语在文本中出现的频率来决定词语对于该文本区别于其他文本的重要程度,标志着自动文本分类阶段的开始。
常见的文本分类算法有贝叶斯分类算法、K最近邻算法(KNN)、支持向量机(SVM)、类中心向量算法。贝叶斯算法虽原理简单、易于实现,但它是基于一个假设,只有当文本数据集是相互独立的,分类准确率才会高,因而被用于文本分类有一定局限性;K最近邻算法分类准确率很高,但分类效率非常低,面对小规模语料集有比较好的分类效果,但遇到大规模语料集就会出现分类时间较长的问题;支持向量机由于其泛化能力很强,广泛适用于小样本语料集,而在大规模语料集的分类实验上,支持向量机的分类效果并不太好;类中心向量法主要优势是在分类实验之前就对语料集进行了大幅度的削减,因而分类实验计算量较小,分类效率很高,但其向量的维数过大,且向量权重过于稀疏,从而造成分类精度不高。本发明首先通过依存关系、词性和语义词典对特征选择进行语义层面的改进,并将语义信息进行量化融入文本特征权重计算中,然后通过语义词典分类结点的编码,对类中心向量进行聚类,从而达到对类中心向量降维与减少向量权重的稀疏,最终实现了一种基于依存关系、词性和语义词典的类中心向量文本分类法,该文本分类法同时兼顾了传统类中心向量法的高分类效率与KNN的高分类精度二方面的优点。
发明内容
为了提高文本分类精度、效率和性能,本发明引入依存关系、语义词典、词性对文本特征进行优化与聚类,提出了改进的权重计算公式,本发明提出了一种基于依存关系、词性和语义词典的类中心向量文本分类法。本发明充分利用句子依存关系不受成分的物理位置影响,依存关系分析准确率高的特点,使用国际上最为流行的Stanford Parser语法解析工具对文本进行句法分析,得出句子语法成分之间的依存关系。针对基于统计学的特征选择算法的语义缺陷,引入依存关系、语义词典、词性对文本特征进行优化,提出了改进的权重计算公式;然后通过语义词典分类结点的编码,对类中心向量进行聚类,从而达到对类中心向量降维与减少向量权重的稀疏,最终实现了一种基于依存关系、词性和语义词典的类中心向量文本分类法。本发明的文本分类法同时兼顾了传统类中心向量法的高分类效率与K最近邻算法的高分类精度二方面的优点,可广泛应用于各类分类系统中。
本发明的方法为:
首先对数据集进行预处理并按照9:1的比例分割训练集和测试集,利用美国斯坦福大学开发的Stanford Parser句法分析软件,对经过预处理的训练集进行词性标注与依存关系分析;根据本发明提出的基于依存关系、词性与语义词典的IT-IDF计算公式计算相应特征的权重;然后采用本发明提出的基于语义词典的类中心向量聚类方法,在每个类别的训练集中筛选出合适的TOP-K作为该类别的类中心向量;最后按照以下步骤对测试集中待分类文本进行分类。
具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810496803.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文件的读写方法及设备
 - 下一篇:一种数据卸载方法和装置
 





