[发明专利]一种提高情感倾向占比低文本预断准确率的方法有效
申请号: | 201811335523.6 | 申请日: | 2018-11-10 |
公开(公告)号: | CN109492226B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 刘洋;陈福 | 申请(专利权)人: | 上海五节数据科技有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/30;G06F18/214 |
代理公司: | 上海牧信专利代理事务所(普通合伙) 31416 | 代理人: | 盛际丰 |
地址: | 201100 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种提高情感倾向占比低文本预断准确率的方法,1)设计一个召回率都差不多的情感模型;假设一个方案对正、中、负情感倾向样本预判的准确度都达到60%以上,方满足用户对情感预判大概率正确的要求,基于上述正、中、负样本的占比,来看看没有引入本方案后面的设计发明时,所要求情感模型对各情感倾向样本召回率;本发明提供的一种提高情感倾向占比低文本预断准确率的方法,快速适应实际环境中正、中、负各类情感样本占比失衡的情形;使得训练模型不用特别追求正、中、负三类文本都有较高的召回率;不需要太多的训练样本,就可以确保正、中、负文本情感预断都有较高的准确率。 | ||
搜索关键词: | 一种 提高 情感 倾向 文本 预断 准确率 方法 | ||
【主权项】:
1.一种提高情感倾向占比低文本预断准确率的方法,其特征在于:1)设计一个召回率都差不多的情感模型;假设一个方案对正、中、负情感倾向样本预判的准确度都达到60%以上,方满足用户对情感预判大概率正确的要求,基于上述正、中、负样本的占比,来看看没有引入本方案后面的设计发明时,所要求情感模型对各情感倾向样本召回率;2)设计以下的方案,保证占比高的样本预判的准确度仍在合理的范围之内;但在实施下面的设计时,还是先要有一个召回率大体相近的情感模型,以保障:(1)各类样本以相同的比率召回或不被召回;(2)确保我们的方案,在情感倾向样本占比发生变化时,仍然适用;下面是该模型的训练过程:(1)随机从相应工作环境中抽取样本集;(2)组织人手对上面所抽取的样本集进行情感倾向标注;(3)随机从样本集中各占1/3的比率,抽取正、中、负的训练集;(4)选择合适的机器算法进行训练,确保各类情感倾向文本的召回率较高,且尽量差不多;(5)训练得到模型,并从人工标注样本集中,抽取占比为1/3的样本组织测试集,进行测试并选定模型;3)设计召回率有偏颇的情感模型;该模型的训练过程:(1)随机从相应工作环境中抽取样本集;(2)组织人手对上面所抽取的样本集进行情感倾向标注,并根据标注结果统计正、中、负各类文本的占比;(3)占比高那类文本按占比比例抽取样本,作为训练集的一部分;(4)想要提高准确度那类文本,抽取与上面占比高那类文本同样数量的样本,同样作为训练集的一部分;(5)而剩下那类文本,则根据其占比抽取相应数量的样本,作为训练集剩下的部分;(6)选择合适的机器算法进行训练,确保占比高类与想要提高准确度类情感倾向文本的召回率较高;(7)训练得到模型,并按上面训练样本集抽取的方式抽取测试样本集,进行测试并选定模型;4)设计一个基础模型+压制模型的串联式组合模型这里,将上面的基础模型与压制模型,以串联的方式组合起来使用,组成一个组合模型,通过该模型来完成对实际环境中的文本进行情感预判;对负面的文本实施了压制模型的情感预判,以进一步提高该类文本预判的准确度。下面就以互联网环境中中性文本占比多,正面文本次之,负面文本最低的情况,以提高负面文本情感预判准确度为目标,来描述该组合模型的使用:1)文本通过基础模型,将被预判为正、中、负文本;2)收集负面文本,调用压制模型,将文本预判为正、中、负文本;3)将压制模型预判为中、正的文本,分别归为中性文本与正面文本。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海五节数据科技有限公司,未经上海五节数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811335523.6/,转载请声明来源钻瓜专利网。