[发明专利]一种提高情感倾向占比低文本预断准确率的方法有效
申请号: | 201811335523.6 | 申请日: | 2018-11-10 |
公开(公告)号: | CN109492226B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 刘洋;陈福 | 申请(专利权)人: | 上海五节数据科技有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/30;G06F18/214 |
代理公司: | 上海牧信专利代理事务所(普通合伙) 31416 | 代理人: | 盛际丰 |
地址: | 201100 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提高 情感 倾向 文本 预断 准确率 方法 | ||
1.一种提高情感倾向占比低文本预断准确率的方法,其特征在于:
1)设计一个召回率高的情感模型;
假设一个方案对正、中、负情感倾向样本预判的准确度都达到60%以上,方满足用户对情感预判大概率正确的要求,基于上述正、中、负样本的占比,判断没有引入本方案后面的设计发明时,所要求情感模型对各情感倾向样本召回率;
2)设计以下的方案,保证占比高的样本预判的准确度仍在合理的范围之内;
但在实施下面的设计时,还是先要有一个召回率大体相近的情感模型,以保障:
(1)各类样本以相同的比率召回或不被召回;
(2)确保方案,在情感倾向样本占比发生变化时,仍然适用;下面是
该模型的训练过程:
(1)随机从相应工作环境中抽取样本集;
(2)组织人手对上面所抽取的样本集进行情感倾向标注;
(3)随机从样本集中各占1/3的比率,抽取正、中、负的训练集;
(4)选择合适的机器算法进行训练,确保各类情感倾向文本的召回率;
(5)训练得到模型,并从人工标注样本集中,抽取占比为1/3的样本组织测试集,进行测试并选定模型;
3)设计召回率有偏颇的情感模
型;该模型的训练过程:
(1)随机从相应工作环境中抽取样本集;
(2)组织人手对上面所抽取的样本集进行情感倾向标注,并根据标注结果统计正、中、负各类文本的占比;
(3)占比高那类文本按占比比例抽取样本,作为训练集的一部分;
(4)想要提高准确度那类文本,抽取与上面占比高那类文本同样数量的样本,同样作为训练集的一部分;
(5)而剩下那类文本,则根据其占比抽取相应数量的样本,作为训练集剩下的部分;(6)
选择合适的机器算法进行训练,确保占比高类与想要提高准确度类情感倾向文本的召回率;
(7)训练得到模型,并按上面训练样本集抽取的方式抽取测试样本集,进行测试并选定模型;
4)设计一个基础模型+压制模型的串联式组合模型
这里,将上面的基础模型与压制模型,以串联的方式组合起来使用,组成一个组合模型,通过该模型来完成对实际环境中的文本进行情感预判;
对负面的文本实施了压制模型的情感预判,以进一步提高该类文本预判的准确度,下面就以互联网环境中中性文本占比多,正面文本次之,负面文本最低的情况,以提高负面文本情感预判准确度为目标,来描述该组合模型的使用:
1)文本通过基础模型,将被预判为正、中、负文本;
2)收集负面文本,调用压制模型,将文本预判为正、中、负文本;
3)将压制模型预判为中、正的文本,分别归为中性文本与正面文本。
2.如权利要求1所述的提高情感倾向占比低文本预断准确率的方法,其特征在于:2)设计召回率有偏颇的情感模型;此模型会对没有考虑的那类文本,判断是否有帮助;同时,在后面的方案中,该模型主要作用:就是将占比高类文本中,误判到想要提高准确度类的样本,进行压制,或从该类预判结果中清理出去;因此,称之为压制模型;测试下来,该模型对于占比高和想要提高准确度那类文本预判的召回率可轻松超过80%。
3.如权利要求2所述的提高情感倾向占比低文本预断准确率的方法,其特征在于:修正基础模型的召回率为70%,而压制模型对中性文本和负面文本的召回率为80%,对正面文本的召回率为10%;
目前,正面样本的准确度还不高,同样的原理,可以训练得到另一个对中性与正面文本情感预判召回率高的压制模型,并利用该模型对正面文本预判的准确度,进行抬升,但为了对前面负面文本预判结果的影响,步骤有所不同:
1)收集调用负面压制模型后,汇总所得预判为正面的文本;
2)调用正面压制模型,对上面收集的正面文本集,进行正、中、负预判;
3)将所有非负的预判文本归入中性文本集,预判为正面的文本归入正面文集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海五节数据科技有限公司,未经上海五节数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811335523.6/1.html,转载请声明来源钻瓜专利网。