[发明专利]基于依存关系、词性和语义词典的类中心向量文本分类法有效
| 申请号: | 201810496803.9 | 申请日: | 2018-05-22 |
| 公开(公告)号: | CN108763402B | 公开(公告)日: | 2021-08-27 |
| 发明(设计)人: | 朱新华;徐庆婷;吴田俊 | 申请(专利权)人: | 广西师范大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
| 代理公司: | 南宁东智知识产权代理事务所(特殊普通合伙) 45117 | 代理人: | 巢雄辉;汪治兴 |
| 地址: | 541004 广西壮*** | 国省代码: | 广西;45 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 依存 关系 词性 语义 词典 中心 向量 文本 分类法 | ||
1.一种基于依存关系、词性和语义词典的类中心向量文本分类方法,包括:
Step1:首先对文本数据集进行预处理并按照9:1的比例分割训练集和测试集,利用句法分析软件,对经过预处理的数据集进行词性标注与依存关系分析,分别得到其词性标注与依存关系;
Step2:分别根据依存等级表和词性等级表确定数据集中文本特征的句子成分等级与词性等级,利用语义词典对文本特征进行同义词替换,按照改进的TF-IDF方法计算特征权重值;
Step3:求取训练集中各类别基于语义词典聚类的类中心向量;
Step4:为测试集中待分类文本选择前TOP-K作为该文本的特征向量;
Step5:将待分类文本的特征向量与各类别的类中心向量进行比对,并计算待分类文本特征向量与各类别的类中心向量之间的向量相似度;
Step6:将待分类文本分入向量相似度值最大的类别;
Step7:转Step4,直到测试集中所有文本分类完毕;
在Step2,依存等级表如表1,词性等级表如表2;
表1
表2
所述改进的TF-IDF方法,是基于依存关系、词性与语义词典的改进的TF-IDF权重计算方法,改进的TF-IDF方法和特征权重值计算过程为:
Step2-1依据语义词典分别对数据集中文本的文本特征进行同义词与近义词合并,其中,同义词组使用语义词典中该组的第一个词作为特征代表,而近义词组使用在语义词典中最先搜索到的近义词作为特征代表;
Step2-2根据依存关系的结果,统计文档q中的特征ti在文本中属于表1第k1等级句子成分的次数m1,按照公式(1)计算出文档q中的特征ti在文本中基于句子成分的权重词频
其中,λ是一个参数,用于调节句子成分等级间的权重差距,取值范围是[0,1];
Step2-3按照公式(2)计算出文档q中的特征ti在语料中基于句子成分的权重
其中,s表示特征ti所在文本总词数,D表示数据集文本总数,pi表示包含特征ti的文本数;
Step2-4根据词性标注的结果,统计特征ti在文本中属于表2第k2等级词性的次数m2,按照公式(3)计算出文档q中的特征ti在文本中基于词性的权重词频
其中,β是一个参数,用于调节词性等级间的权重差距,取值范围是[0,1];
Step2-5按照公式(4)计算出文档q中的特征ti在语料中基于词性的权重
其中,s、D、pi的含义与公式(2)相同;
Step2-6按照公式(5)计算出文档q中的特征ti在语料中最终的基于TF_IDFq,i的权重wq,i:
所述句法分析软件选自:美国斯坦福大学开发的Stanford Parser或哈尔滨工业大学的《语言云》;
所述语义词典为现有的可计算同义词与常识词典;
所述语料是指分类所使用的文本数据集,选自复旦大学语料集、搜狗中文语料集或20Newsgroups英文语料集。
2.根据权利要求1所述的文本分类方法,其特征在于:在Step1,所述预处理包括对中文语料的分词或对英文语料的词根还原、删除停用词、去除低频词三个环节。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810496803.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文件的读写方法及设备
- 下一篇:一种数据卸载方法和装置





