[发明专利]一种基于投诉工单训练文本计算最佳标注集的方法及系统有效
| 申请号: | 202010114158.7 | 申请日: | 2020-02-24 |
| 公开(公告)号: | CN111353291B | 公开(公告)日: | 2023-08-01 |
| 发明(设计)人: | 刘博;雷晓宇;王福君;许金伟 | 申请(专利权)人: | 北京合力亿捷科技股份有限公司 |
| 主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/279;G06F40/169 |
| 代理公司: | 北京久诚知识产权代理事务所(特殊普通合伙) 11542 | 代理人: | 余罡 |
| 地址: | 100081 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 投诉 训练 文本 计算 最佳 标注 方法 系统 | ||
1.一种基于电信行业客服投诉工单训练文本计算最佳标注集的方法,其特征在于,包括:
S1、取样标注一个样本;
S2、主动在线学习实时更新模型;
S3、当标注数据达到一定数据累计阈值时,使用线下深度学习更新模型;
S4、模型更新后对未标注池example做预测;
S5、取确信度最低example作为待标注样例;
S6、重复至步骤S1,对待标注样例进行标注;
S7、重复生成最优模型算法后,计算输出最佳待标注集;
S8、对最佳待标注集进行人工标注,从而无需大量标注训练样本。
2.如权利要求1所述的方法,其特征在于,所述步骤S1中,取样标注样本选择涵盖电信行业客服投诉相关专有名词条目,保证电信行业客服投诉工单文本中专有名词的标注。
3.如权利要求1所述的方法,其特征在于,所述步骤S2中,利用信息熵SVM算法实时更新模型。
4.如权利要求1所述的方法,其特征在于,所述步骤S3中,所述数据累计阈值为100-200条。
5.如权利要求1所述的方法,其特征在于,所述步骤S3中,使用线下offline的QBC算法深度学习更新模型。
6.一种基于电信行业客服投诉工单训练文本计算最佳标注集的系统,其特征在于,包括:
取样标注模块,用于取样标注一个样本;
线上主动学习模块,用于主动在线学习实时更新模型;
线下主动学习模块,用于当标注数据达到一定数据累计阈值时,使用线下深度学习更新模型;
example预测模块,用于模型更新后对未标注池example做预测;
待标注样例选取模块,用于取确信度最低example作为待标注样例;
迭代模块,用于对待标注样例进行重复标注;
最优模型算法模块,用于重复生成最优模型算法后,计算输出最佳待标注集;最佳标注集模块,用于对最佳待标注集进行人工标注,从而无需大量标注训练样本。
7.如权利要求6所述的系统,其特征在于,所述取样标注模块中,取样标注样本选择涵盖电信行业客服投诉相关专有名词条目,保证电信行业客服投诉工单文本中专有名词的标注。
8.如权利要求6所述的系统,其特征在于,所述线上主动学习模块中,利用信息熵SVM算法实时更新模型。
9.如权利要求6所述的系统,其特征在于,所述线下主动学习模块中,所述数据累计阈值为100-200条。
10.如权利要求6所述的系统,其特征在于,所述线下主动学习模块中,使用线下offline的QBC算法深度学习更新模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京合力亿捷科技股份有限公司,未经北京合力亿捷科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010114158.7/1.html,转载请声明来源钻瓜专利网。





