[发明专利]一种基于投诉工单训练文本计算最佳标注集的方法及系统有效
| 申请号: | 202010114158.7 | 申请日: | 2020-02-24 |
| 公开(公告)号: | CN111353291B | 公开(公告)日: | 2023-08-01 |
| 发明(设计)人: | 刘博;雷晓宇;王福君;许金伟 | 申请(专利权)人: | 北京合力亿捷科技股份有限公司 |
| 主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/279;G06F40/169 |
| 代理公司: | 北京久诚知识产权代理事务所(特殊普通合伙) 11542 | 代理人: | 余罡 |
| 地址: | 100081 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 投诉 训练 文本 计算 最佳 标注 方法 系统 | ||
一种基于电信行业客服投诉工单训练文本计算最佳标注集的方法,选取待标注训练样本后,S1、取样标注一个样本;S2、主动在线学习实时更新模型;S3、当标注数据达到一定数据累计阈值时,使用线下深度学习更新模型;S4、模型更新后对未标注池example做预测;S5、取确信度最低example作为待标注样例;S6、重复至步骤S1;S7、重复生成最优模型算法后,计算输出最佳待标注集;S8、对最佳标注集进行人工标注,从而无需大量标注训练样本。
技术领域
本发明涉及计算机网络技术领域,更具体地,涉及一种基于投诉工单训练文本计算最佳标注集的方法及系统
背景技术
电信行业客户服务投诉管理人员会定期针对全量记录的工单文档进行自然语言理解的文本处理、聚类建模等实现客户投诉分析。算法训练过程中需要进行大量语料中文标注工作,尤其在电信行业服务及产品专有名词标注过程中,需要花费大量专有人员标注,且随着业务及服务产品不断升级和各省分公司个性化专业名词不断更新,为投诉工单文本分析语料标注的工作带来巨大挑战和人员成本。现有训练未标注样本全部手工标注,花费大量的时间成本和经济成本。同时如果训练样本的规模过于庞大,训练时间也会花费较长。
现有训练需要专业人员大量标注训练样本,从而导致存在错误/无用标注。同时训练的时间花费较多。
发明内容
本发明采用一种方法针对电信行业客服投诉工单文本语料进行主动学习提出最小核心有用标注集,减少人工标注的样本数量,大量降低人工标注成本,提高投诉工单文本分析系统的效率。
本发明提供一种基于投诉工单训练文本计算最佳标注集的方法,包括:
S1、取样标注一个样本;
S2、主动在线学习实时更新模型;
S3、当标注数据达到一定数据累计阈值时,使用线下深度学习更新模型;
S4、模型更新后对未标注池example做预测;
S5、取确信度最低example作为待标注样例;
S6、重复至步骤S1,对待标注样例进行标注;
S7、重复生成最优模型算法后,计算输出最佳待标注集;
S8、对最佳标注集进行人工标注,从而无需大量标注训练样本。
在本公开的一实施例中,所述步骤S1中,取样标注样本选择涵盖电信行业客服投诉相关专有名词条目,保证电信行业客服投诉工单文本中专有名词的标注。
在本公开的一实施例中,所述步骤S2中,利用信息熵SVM算法实时更新模型。
在本公开的一实施例中,所述步骤S3中,所述数据累计阈值为100-200条。
在本公开的一实施例中,所述步骤S3中,使用线下offline的QBC算法深度学习更新模型。
本发明还提供一种基于投诉工单训练文本计算最佳标注集的系统,包括:
取样标注模块,用于取样标注一个样本;
线上主动学习模块,用于主动在线学习实时更新模型;
线下主动学习模块,用于当标注数据达到一定数据累计阈值时,使用线下深度学习更新模型;
example预测模块,用于模型更新后对未标注池example做预测;
待标注样例选取模块,用于取确信度最低example作为待标注样例;
迭代模块,用于对待标注样例进行重复标注;
最优模型算法模块,用于重复生成最优模型算法后,计算输出最佳待标注集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京合力亿捷科技股份有限公司,未经北京合力亿捷科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010114158.7/2.html,转载请声明来源钻瓜专利网。





