[发明专利]基于层次化分类体系的情感判别和重要性划分方法有效
申请号: | 201810394797.6 | 申请日: | 2018-04-27 |
公开(公告)号: | CN108804524B | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 冯翱;徐天豪;吴锡 | 申请(专利权)人: | 成都信息工程大学;成都智睿通拓科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 成都智涌知识产权代理事务所(普通合伙) 51313 | 代理人: | 周正辉 |
地址: | 610000 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 层次 化分 体系 情感 判别 重要性 划分 方法 | ||
本发明涉及一种基于层次化分类体系的情感判别和重要性划分方法,其包括:S1)采集垂直领域的大量新闻数据,其内容尽可能多样化;S2)分析垂直领域,根据层次化分类的思想对该领域进行层次化划分,划分后的垂直领域由树状图表示;S3)针对每层中的内节点和基类,选取一定量的新闻数据进行人工标注;S4)对于每个内节点和基类,使用S3中标注好的训练数据建立分类器,分类器输出新进新闻属于该节点的概率;S5)对于新采集到的新闻数据,使用S4中建立的分类器计算其属于每个节点的概率,将其归类于概率最大或超过门限值的节点,从而使得新闻数据被归类到内节点或基类;S6)将新闻数据归类到节点后,计算并确定其情感和重要性标签。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于层次化分类体系的情感判别和重要性划分方法。
背景技术
随着网络信息的迅猛发展,互联网产生了海量的各种类型的原始信息,为了在浩如烟海又纷繁芜杂的信息中获取有效信息,信息处理成了人们必不可少的工具。在实际应用中,信息的获取往往聚焦于某一垂直领域,如财经、社会、体育等,以更好的对新闻的情感倾向(正面/负面/中性)和重要性(对于新闻主体影响高/中/低)进行判别,情感倾向和重要性是构建推荐系统及量化处理时的重要属性。在垂直领域内,通过层次化分类体系来构建分类器以自动对文本进行分类,是减少人工标注工作量和实时高效处理的前提。
在传统文本分类中,并没有考虑到类别间存在的层次关系,而简单的认为所有类别相互之间没有交集,同处于一个平面,从而使得特征间存在大量冗余,因此基于层次化体系对文本进行分类是非常必要的。在将文本通过分类器归入到细分领域后,进行情感倾向和重要性两个属性的判别,通常将正/负面新闻与重要性相结合,构成一个单维度的分类,从而将问题转化为一个多分类问题,可使用机器学习中的通用分类算法解决。因为细分领域的新闻中存在专有名词,一些情感倾向及重要程度通过与内容相关的语义特征表达,所以通用的基于情感词表的方法在很多领域中不再适用。以新闻《创美药业2016年全年盈利同比大幅增加125.15%》为例,“集团的毛利为人民币180.30百万元,同比增长9.47%;毛利率为4.91%,较上年度增加0.06个百分点;净利润率为1.62%,较上年度增加0.84个百分点。总费用率为3.06%,较上年度减少0.73个百分点”,在内容中出现了“增加”,也出现了“减少”,所以通过情感词很难判断文章情感倾向。实际的情感倾向要取决于关键词对应的主体,既文中的“毛利”“总费用率”,事实上,“增加”和“减少”对应的情感倾向都是正面的。
综上,现有技术方案主要包括:
1、不考虑新闻特征,与其他情感分类问题类似,使用通用情感词表构建分类器。该方案对于大量不含明显情感词的新闻,不能进行正确的情感和重要性判别。
2、采集某一垂直领域大量待分类新闻,由人工基于预先设定的规则,对于部分数据进行人工标注,并使用标注数据训练单一分类器,用分类器对未标注数据进行划分。然而,由于不同内容的新闻具有不同的情感和重要性划分标注,将所有类别的训练数据合并进行处理,训练得到的通用分类器对于大多数类别的分类效果都不够好。
3、现有的普通层次化分类方法,对垂直领域内新闻内容进行分类,采集各层次中不同节点的内容进行标注,再对每个节点使用相同分类器进行训练,之后新获取的新闻数据,使用分类器对其进行划分。该方案存在以下不足:即使单一垂直领域,同一层次内新闻仍有不同的特点,针对不同节点使用相同分类器进行训练,忽略了不同新闻内容间的差异性,各节点间只是参数不同,当节点过多时容易误分,很难获得高准确率的结果。
发明内容
针对现有技术之不足,本发明提出一种基于层次化分类体系的情感判别和重要性划分方法,其包括:
S1)采集垂直领域的大量新闻数据,其内容尽可能多样化;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学;成都智睿通拓科技有限公司,未经成都信息工程大学;成都智睿通拓科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810394797.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据同步方法、系统及计算机可读存储介质
- 下一篇:一种智能回答方法及装置