[发明专利]一种提高情感倾向占比低文本预断准确率的方法有效
申请号: | 201811335523.6 | 申请日: | 2018-11-10 |
公开(公告)号: | CN109492226B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 刘洋;陈福 | 申请(专利权)人: | 上海五节数据科技有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/30;G06F18/214 |
代理公司: | 上海牧信专利代理事务所(普通合伙) 31416 | 代理人: | 盛际丰 |
地址: | 201100 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提高 情感 倾向 文本 预断 准确率 方法 | ||
本发明公开了一种提高情感倾向占比低文本预断准确率的方法,1)设计一个召回率都差不多的情感模型;假设一个方案对正、中、负情感倾向样本预判的准确度都达到60%以上,方满足用户对情感预判大概率正确的要求,基于上述正、中、负样本的占比,来看看没有引入本方案后面的设计发明时,所要求情感模型对各情感倾向样本召回率;本发明提供的一种提高情感倾向占比低文本预断准确率的方法,快速适应实际环境中正、中、负各类情感样本占比失衡的情形;使得训练模型不用特别追求正、中、负三类文本都有较高的召回率;不需要太多的训练样本,就可以确保正、中、负文本情感预断都有较高的准确率。
技术领域
本发明涉及文本情感判断机器学习技术领域,尤其涉及一种提高情感倾向占比低文本预断准确率的方法。
背景技术
对客户的情感分析与准确判断是商家孜孜追求的目标,随着互联网文本数据的海量增长,通过人工来分析数据,已不大可能,因此纷纷引入机器学习方法,来对这些或长、或短文本,通过机器来这些文本所表达的信息,进行情感分析,进而期望对用户的情感做出精确的判断与把握。
当下,产生了众多该类技术:有基于语义的,也有基于统计的;有的是监督式的,也有非监督式,还有半监督式;有基于传统SVM或随机森林算法,也有基于深度学习的;有专于短文本,也有专于长文本的。但从目前公开的情况来看,此类技术的表现并不是那么尽如人意。比如百度的公开短文本情感分析引擎,我们测下来,其准确度也仅在75%左右。特别是该准确度是对样本总体而言,如果某类情感倾向的样本在数据集中占比低的话,该准确率将更低。
而现实互联网世界里,这种占比极度的不衡:将文本的情感倾向定为:中性、正面与负面,据统计,三者的占比大抵为:67%,20%,13%。现有的机器学习算法都做不到文本情感判断的较高的召回率,加上中性文本的基数,将中性样本预判成其它的样本的数量甚至超过负面,或正面本身的样本数量,从而导致预判样本中的负面、或正面的占比不超过50%,因此上述的机器算法在互联网文本情感预判的实战中,效果很差。然而,负面与正面的信息识别,对用户而言,又常比中性文本要重要的多。同时,还存在着正面判成负面,或负面判成正面的情形,这不管是对用户的决策辅助,还是提供给用户的体验,都是极其糟糕的。
分析下来,当前制约占比低情感倾向文本预判准确度低的主要原因有:
1、现有的机器学习算法本身无法识别出文本分类的占比;
2、现有情感分析模型里没有应对文本分类占比不一的情形;
3、现有的机器学习算法,难以实现正、中、负几类文本情感预判的召回率都较高(比如90%);
4、现实互联网环境中的文本情感倾向占比严重失衡。
总之,来之互联网的文本情感倾向为中性的占绝大多数,在当前情感分析算法的准确率与召回率指标下,还难以做到对负面、或正面情感倾向文本的预判,做到大体是正确的。
申请人认为通过机器学习算法,来代替人工对文本进行情感分析,可以极大地提高效率,也是应对互联网蓬勃发展的正确途径,但要能够真正支持实战,还需要面对互联网文本情感倾向占比不一致的现实情况,积极应对,找到提高负面与正面样本预判准确度的方法,确保向用户提供的预判信息大致是正确的。
发明内容
本发明为解决上述技术问题而采用的技术方案是提供一种提高情感倾向占比低文本预断准确率的方法,其中,具体技术方案为:
1)设计一个召回率都差不多的情感模型;
假设一个方案对正、中、负情感倾向样本预判的准确度都达到60%以上,方满足用户对情感预判大概率正确的要求,基于上述正、中、负样本的占比,来看看没有引入本方案后面的设计发明时,所要求情感模型对各情感倾向样本召回率;
2)设计以下的方案,保证占比高的样本预判的准确度仍在合理的范围之内;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海五节数据科技有限公司,未经上海五节数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811335523.6/2.html,转载请声明来源钻瓜专利网。