[发明专利]基于层次化分类体系的情感判别和重要性划分方法有效

专利信息
申请号: 201810394797.6 申请日: 2018-04-27
公开(公告)号: CN108804524B 公开(公告)日: 2020-03-27
发明(设计)人: 冯翱;徐天豪;吴锡 申请(专利权)人: 成都信息工程大学;成都智睿通拓科技有限公司
主分类号: G06F16/35 分类号: G06F16/35
代理公司: 成都智涌知识产权代理事务所(普通合伙) 51313 代理人: 周正辉
地址: 610000 四川省成都*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 层次 化分 体系 情感 判别 重要性 划分 方法
【说明书】:

发明涉及一种基于层次化分类体系的情感判别和重要性划分方法,其包括:S1)采集垂直领域的大量新闻数据,其内容尽可能多样化;S2)分析垂直领域,根据层次化分类的思想对该领域进行层次化划分,划分后的垂直领域由树状图表示;S3)针对每层中的内节点和基类,选取一定量的新闻数据进行人工标注;S4)对于每个内节点和基类,使用S3中标注好的训练数据建立分类器,分类器输出新进新闻属于该节点的概率;S5)对于新采集到的新闻数据,使用S4中建立的分类器计算其属于每个节点的概率,将其归类于概率最大或超过门限值的节点,从而使得新闻数据被归类到内节点或基类;S6)将新闻数据归类到节点后,计算并确定其情感和重要性标签。

技术领域

本发明涉及数据处理技术领域,尤其涉及一种基于层次化分类体系的情感判别和重要性划分方法。

背景技术

随着网络信息的迅猛发展,互联网产生了海量的各种类型的原始信息,为了在浩如烟海又纷繁芜杂的信息中获取有效信息,信息处理成了人们必不可少的工具。在实际应用中,信息的获取往往聚焦于某一垂直领域,如财经、社会、体育等,以更好的对新闻的情感倾向(正面/负面/中性)和重要性(对于新闻主体影响高/中/低)进行判别,情感倾向和重要性是构建推荐系统及量化处理时的重要属性。在垂直领域内,通过层次化分类体系来构建分类器以自动对文本进行分类,是减少人工标注工作量和实时高效处理的前提。

在传统文本分类中,并没有考虑到类别间存在的层次关系,而简单的认为所有类别相互之间没有交集,同处于一个平面,从而使得特征间存在大量冗余,因此基于层次化体系对文本进行分类是非常必要的。在将文本通过分类器归入到细分领域后,进行情感倾向和重要性两个属性的判别,通常将正/负面新闻与重要性相结合,构成一个单维度的分类,从而将问题转化为一个多分类问题,可使用机器学习中的通用分类算法解决。因为细分领域的新闻中存在专有名词,一些情感倾向及重要程度通过与内容相关的语义特征表达,所以通用的基于情感词表的方法在很多领域中不再适用。以新闻《创美药业2016年全年盈利同比大幅增加125.15%》为例,“集团的毛利为人民币180.30百万元,同比增长9.47%;毛利率为4.91%,较上年度增加0.06个百分点;净利润率为1.62%,较上年度增加0.84个百分点。总费用率为3.06%,较上年度减少0.73个百分点”,在内容中出现了“增加”,也出现了“减少”,所以通过情感词很难判断文章情感倾向。实际的情感倾向要取决于关键词对应的主体,既文中的“毛利”“总费用率”,事实上,“增加”和“减少”对应的情感倾向都是正面的。

综上,现有技术方案主要包括:

1、不考虑新闻特征,与其他情感分类问题类似,使用通用情感词表构建分类器。该方案对于大量不含明显情感词的新闻,不能进行正确的情感和重要性判别。

2、采集某一垂直领域大量待分类新闻,由人工基于预先设定的规则,对于部分数据进行人工标注,并使用标注数据训练单一分类器,用分类器对未标注数据进行划分。然而,由于不同内容的新闻具有不同的情感和重要性划分标注,将所有类别的训练数据合并进行处理,训练得到的通用分类器对于大多数类别的分类效果都不够好。

3、现有的普通层次化分类方法,对垂直领域内新闻内容进行分类,采集各层次中不同节点的内容进行标注,再对每个节点使用相同分类器进行训练,之后新获取的新闻数据,使用分类器对其进行划分。该方案存在以下不足:即使单一垂直领域,同一层次内新闻仍有不同的特点,针对不同节点使用相同分类器进行训练,忽略了不同新闻内容间的差异性,各节点间只是参数不同,当节点过多时容易误分,很难获得高准确率的结果。

发明内容

针对现有技术之不足,本发明提出一种基于层次化分类体系的情感判别和重要性划分方法,其包括:

S1)采集垂直领域的大量新闻数据,其内容尽可能多样化;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学;成都智睿通拓科技有限公司,未经成都信息工程大学;成都智睿通拓科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810394797.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top