[发明专利]一种网络社区话题分类方法及装置有效
| 申请号: | 201811062800.0 | 申请日: | 2018-09-12 |
| 公开(公告)号: | CN109446393B | 公开(公告)日: | 2020-06-30 |
| 发明(设计)人: | 吴旭;党习歌;颉夏青 | 申请(专利权)人: | 北京邮电大学 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/332;G06F16/35;G06F40/284;G06Q50/00 |
| 代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 刘广达 |
| 地址: | 100876 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 网络 社区 话题 分类 方法 装置 | ||
1.一种网络社区话题分类方法,其特征在于,包括:
收集网络社区话题语料并确定对应的类别标记,对收集的话题语料进行预处理后作为样本集;
根据所述样本集进行计算并造代价敏感矩阵;其中,
所述根据所述样本集进行计算并构造代价敏感矩阵,包括:
根据所述样本集中各样本的类别标记统计类别总数,并计算各类别的先验概率;
根据所述先验概率分别计算各样本属于各类别的后验概率;
对所述后验概率进行变换作为对应样本错分的代价敏感值;
根据所述代价敏感值构造代价敏感矩阵;
基于所述代价敏感矩阵对所述样本集进行训练得到分类器;
使用所述分类器对网络社区文本进行分类。
2.根据权利要求1所述的方法,其特征在于,所述对收集的话题语料进行预处理后作为样本集,包括:
对收集的话题语料进行分词得到各词汇;
去除得到的各词汇中的停用词得到各有效词汇;
计算各有效词汇的特征值;
根据各有效词汇的特征值,对所述收集的话题语料进行向量化处理得到文本矩阵并作为样本集。
3.根据权利要求1所述的方法,其特征在,所述基于所述代价敏感矩阵对所述样本集进行训练得到分类器,包括:
根据所述代价敏感矩阵中的各代价敏感值确定各样本对应的基尼系数;
根据所述基尼系数选择决策树的分支节点,并对所述样本集进行随机森林训练,得到分类器。
4.根据权利要求3所述的方法,其特征在于,所述根据所述代价敏感矩阵中的各代价敏感值确定各样本对应的基尼系数,包括:
分别将各样本作为当前样本,根据当前样本属于各类别的条件概率和对应的敏感代价值,计算当前样本的引入敏感代价后的基尼系数;
所述基尼系数的计算公式为:GiniCost(D)=∑AIJP(I|d)P(J|d),其中,1≤I≤N,1≤J≤N,N为类别总数,GiniCost(D)为样本d的基尼系数,AIJ表示样本d的类别标识为J,被误分到类别I的代价。
5.一种网络社区话题分类装置,其特征在于,包括:
收集模块,用于收集网络社区话题语料并确定对应的类别标记;
预处理模块,用于对所述收集模块收集的话题语料进行预处理后并作为样本集;
构造模块,用于根据所述样本集进行计算并构造代价敏感矩阵;其中,所述构造模块包括:第二计算子模块、第三计算子模块、变换子模块和构造子模块;
所述第二计算子模块,用于根据所述样本集中各样本的类别标记统计类别总数,并分别计算各类别的先验概率;
所述第三计算子模块,用于根据所述第二计算子模块计算的先验概率分别计算各样本属于各类别的后验概率;
变换子模块,用于对所述第三计算子模块计算的后验概率进行变换作为对应样本错分的代价敏感值;
构造子模块,用于根据所述变换子模块得到的各代价敏感值构造代价敏感矩阵;
训练模块,用于基于所述构造模块构造的代价敏感矩阵对所述预处理模块得到的样本集进行训练得到分类器;
分类模块,用于使用所述训练模块得到的分类器对网络社区文本进行分类。
6.根据权利要求5所述的装置,其特征在于,所述预处理模块具体包括:分词子模块、去词子模块、第一计算子模块和向量化子模块;
所述分词子模块,用于对所述收集模块收集的话题语料进行分词得到各词汇;
所述去词子模块,用于去除所述分词子模块得到的各词汇中的停用词得到有效词汇;
所述第一计算子模块,用于计算所述去词子模块得到各有效词汇的特征值;
所述向量化子模块,用于根据所述第一计算子模块计算的各有效词汇的特征值,对所述收集模块收集的话题语料进行向量化处理得到文本矩阵并作为样本集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811062800.0/1.html,转载请声明来源钻瓜专利网。





