[发明专利]一种基于关联规则的Web评论观点自动分类系统及分类方法有效
申请号: | 201310301065.5 | 申请日: | 2013-07-17 |
公开(公告)号: | CN103473262A | 公开(公告)日: | 2013-12-25 |
发明(设计)人: | 袁满;欧阳元新;皇甫垚;熊璋 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 成金玉;杨学明 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关联 规则 web 评论 观点 自动 分类 系统 方法 | ||
1.一种基于关联规则的Web评论观点自动分类系统,其特征在于包括:频繁词集提取模块,频繁词集优化模块,最优关联规则挖掘模块,文本观点分类模块,其中:
频繁词集提取模块,输入候选词集本发明的系统,所述候选词集是从文本中提取的能代表观点的词语的集合,对候选词集采用Apriori算法,通过宽度优先的策略自底向上逐级生成各项频繁项目集,送至频繁词集优化模块;
频繁词集优化模块:在频繁词集提取模块产生的频繁词集中,令FS表示频繁词集,t为频繁词集FS中的词条,计算每一个词条t在类别中i中的支持度Sup(t)i,而一个频繁词集的在类别i中的支持度就是其所有包含词条在该类中的最低支持度:Sup(FS)i=min{Sup(t)1,Sup(t)2....Sup(t)n},计算出每个Sup(FS)i之后,根据公式(2.1)计算支持度均方差AD‐Sup:
Ave为平均值函数,i=1……n表示文本类别,计算所有频繁词集的AD‐Sup,按照得分的由高到低排序,以得分最高的N项作为候选特征,最终得到了优化频繁词集;
最优关联集挖掘模块:从已获得的优化频繁项目集中,逐行扫描每一条频繁项目集,并在每一条频繁项目集中计算由其推导出正面和负面观点的置信度,若该置信度高于指定阈值则将该规则加入相应分类规则子集,当扫描结束后,共有正面规则集和负面规则集两个规则子集;如果某规则集的所有规则都没有比他们更普遍且支持度和置信度更高的规则,所述的一个规则比另一个规则更普遍是指:对于两个规则和,如果,则更具普遍性,那么该规则集就是最优的;最后生成的关联规则集就是整个系统的核心部分,它是文本观点分类的最终依据;
文本评论观点分类模块:在最优关联集挖掘模块生成的关联规则集的基础上,对于一个分类目标test_reviewi,使用多参数测试的规则判断,首先需要从正面规则集和负面规则集中分别寻找目标包含的规则先导部分,然后从包含的正面规则子集和负面规则子集中计算参与投票评分的多个参数值,所述多个参数值包括最大置信度(Max-conf)、规则覆盖长度(Covered Len)、次要置信度(Minor-conf)一最大单词权重(MTW);
所述最大置信度(Max-conf):如果在所有正面规则子集的最大置信度与所有负面规则子集的最大置信度差值的绝对值大于预设值ε,0<ε<1,那么最大置信度的分值Vote(Max-conf)如公式2.3所示,
公式(2.3)中,PR代表正面规则,NR代表负面规则,Max-Conf(PR)为所有正面规则的置信度中最大值,Max-Conf(NR)为所有负面规则的置信度中最大值;
规则覆盖长度(Covered Len):分类目标所包含的规则中的规则数;
次要置信度(Minor-conf):除了置信度最大的规则以外其它规则的置信度均值;
最大单词权重(MTW):从权重最大的单词开始,如果某一规则包含该单词则将其加入到该单词对应的规则簇中,规则簇指的是先导部分包含同一单词的规则子集,并将该规则从候选规则中删除,每个规则簇的权值等于其中包含单词的权重,最终MTW的值等于各规则簇权重的平均值;
对每个参数metricj分别对比在正面规则子集和负面规则子集中的大小,如果正面得分更大,则Vote(metricj)=1,反之Vote(metricj)=‐1,相等则为0;最终的数值为最大置信度的得分Vote(Max‐conf),规则覆盖长度的得分Vote(Cover‐len),次要置信长度的得分Vote(Minor‐conf),最大单词权重的得分Vote(MTW)之和;如果此和大于零,则分类目标test_reviewi属于正面观点,反之为反面观点。
2.一种基于关联规则的Web评论观点自动分类方法,其特征在于实现步骤如下:
(1)频繁词集提取
将候选词集输入至本发明的系统,所述候选词集是从文本中提取的能代表观点的词语的集合,对候选词集采用Apriori算法,通过宽度优先的策略自底向上逐级生成各项频繁项目集;
(2)频繁词集优化:在步骤(1)产生的频繁词集中,令FS表示频繁词集,t为频繁词集FS中的词条,计算每一个词条t在类别中i中的支持度Sup(t)i,而一个频繁词集的在类别i中的支持度就是其所有包含词条在该类中的最低支持度:Sup(FS)i=min{Sup(t)1,Sup(t)2....Sup(t)n},计算出每个Sup(FS)i之后,根据公式(2.1)计算支持度均方差AD‐Sup:
Ave为平均值函数,i=1……n表示文本类别,计算所有频繁词集的AD‐Sup,按照得分的由高到低排序,以得分最高的N项作为候选特征,最终得到了优化频繁词集;
(3)进行最优关联集挖掘
从得到的优化频繁项目集中,逐行扫描每一条频繁项目集,并在每一条频繁项目集中计算由其推导出正面和负面观点的置信度,若该置信度高于指定阈值则将该规则集加入相应分类规则子集,当扫描结束后,共有正面规则集和负面规则集两个规则子集;对于一个规则集,如果该规则集的所有规则都没有比他们更普遍且支持度和置信度更高的规则(这里的所说的一个规则比另一个规则更普遍是指:对于两个规则和如果则更具普遍性),那么该规则集就是最优的;最后生成的关联规则集就是整个系统的核心部分,它是文本观点分类的最终依据;
(4)文本评论观点分类
在步骤(3)生成的关联规则集的基础上,对于一个分类目标test_reviewi,使用多参数测试的规则判断,首先需要从正面规则集和负面规则集中分别寻找目标包含的规则先导部分,然后从包含的正面规则子集和负面规则子集中计算参与投票评分的多个参数值,所述多个参数值包括最大置信度(Max-conf)、规则覆盖长度(Covered Len)、次要置信度(Minor-conf)一最大单词权重(MTW);
所述最大置信度(Max-conf):如果在所有正面规则子集的最大置信度与所有负面规则子集的最大置信度差值的绝对值大于预设值ε,0<ε<1,那么最大置信度的分值Vote(Max-conf)如公式2.3所示,
公式(2.3)中,PR代表正面规则,NR代表负面规则,Max-Conf(PR)为所有正面规则的置信度中最大值,Max-Conf(NR)为所有负面规则的置信度中最大值;
规则覆盖长度(Covered Len):分类目标所包含的规则中的规则数;
次要置信度(Minor-conf):除了置信度最大的规则以外其它规则的置信度均值;
最大单词权重(MTW):从权重最大的单词开始,如果某一规则包含该单词则将其加入到该单词对应的规则簇中,规则簇指的是先导部分包含同一单词的规则子集,并将该规则从候选规则中删除,每个规则簇的权值等于其中包含单词的权重,最终MTW的值等于各规则簇权重的平均值;
对每个参数metricj分别对比在正面规则子集和负面规则子集中的大小,如果正面得分更大,则Vote(metricj)=1,反之Vote(metricj)=‐1,相等则为0;最终的数值为最大置信度的得分Vote(Max‐conf),规则覆盖长度的得分Vote(Cover‐len),次要置信长度的得分Vote(Minor‐conf),最大单词权重的得分Vote(MTW)之和;如果此和大于零,则分类目标test_reviewi属于正面观点,反之为反面观点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310301065.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于层次依赖建模的软件FMEA方法
- 下一篇:一种混凝土凿毛施工方法