[发明专利]一种基于生成式多轮对话意图识别的骚扰电话屏蔽方法有效

专利信息
申请号: 202110312923.0 申请日: 2021-03-24
公开(公告)号: CN112800206B 公开(公告)日: 2021-08-24
发明(设计)人: 朱海峰;颜小君;陈正鹏 申请(专利权)人: 南京万得资讯科技有限公司
主分类号: G06F16/332 分类号: G06F16/332;G06F16/35;G06F40/279;G06F40/35
代理公司: 上海申汇专利代理有限公司 31001 代理人: 徐俊
地址: 210019 江苏省*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 生成 轮对 意图 识别 骚扰 电话 屏蔽 方法
【权利要求书】:

1.一种基于生成式多轮对话意图识别的骚扰电话屏蔽方法,其特征在于,包括以下步骤:

步骤1、收集语音对话通用语料,采集语音对话中前5轮对话的文本作为多轮对话模型的训练语料;

同时,人工按照不同骚扰电话的类别分别提取部分骚扰电话对话语料作为意图识别的骚扰电话对话训练样本,并依据骚扰电话的类别,对每个骚扰电话对话训练样本进行人工标注;

步骤2、基于步骤1获得的所有训练语料构建GPT-dialog生成式问答模型,用于进行自动多轮对话交互,具体包括以下步骤:

步骤201、选取采用相对位置编码构建的Transformer预训练模型,并且针对Transformer预训练模型的Attention矩阵加入下三角形式的Mask,生成单向语言模型GPT;

步骤202、在步骤201得到的单向语言模型GPT的基础上选用分类算法通用的交叉熵损失函数来计算单向语言模型GPT在迭代优化过程中的损失,并采用AdamW优化器来更新单向语言模型GPT训练的参数值;最后使用随机采样算法来进行文本的解码输出,由此,完成了GPT-dialog生成式问答模型的搭建;

步骤203、设置GPT-dialog生成式问答模型的训练参数;

步骤204、将步骤1获得的训练语料作为GPT-dialog生成式问答模型的输入,执行训练;

步骤205、将训练完成的GPT-dialog生成式问答模型进行存储;

步骤3、基于步骤1得到的人工标注的少量骚扰电话对话训练样本和步骤1获得的训练语料构建LDA主题算法模型,用以辅助多轮对话的意图识别,具体包括以下步骤:

步骤301、将训练语料和骚扰电话对话训练样本去除停用词、非汉字的特殊字符后,用jieba进行分词,保存分词结果;

步骤302、以分词结果作为模型输入,设置模型输出的主题个数为N,搭配gensim库进行LDA主题算法模型的搭建和训练;

步骤303、将训练好的LDA主题算法模型及N个主题所对应的关键词进行存储;

步骤304、人工对步骤303获得的各主题所对应的关键词进行标注,标注为骚扰相关和非骚扰相关;

步骤4、基于步骤1得到的人工标注的少量骚扰电话对话训练样本和步骤1获得的训练语料构建BERT-RCNN模型,用于多轮对话内容的意图评分输出,具体包括以下步骤:

步骤401、将骚扰电话对话训练样本作为模型的负面样本,随机选取一批其他对话语料作为正面样本,进行样本的构建;

步骤402、选用base版本的BERT模型作为预训练模型提供基于字的向量转化,并使用RCNN算法作为评分算法,其中,RCNN算法的输出层使用softmax,并且设为二分类,由此构建得到BERT-RCNN模型;

步骤403、设置BERT-RCNN模型训练的参数;

步骤404、将步骤401中构建的样本作为输入放入BERT-RCNN模型中进行训练;

步骤405、保存训练完成的BERT-RCNN模型;

步骤5、由GPT-dialog生成式问答模型自动与主叫方进行多轮对话,具体包括以下步骤:

步骤501、获取当前一轮主叫方的说话文本;

步骤502、将当前一轮的说话文本使用[SEP]标签与上一轮的双方对话文本拼接后输入到已经训练好的GPT-dialog生成式问答模型中,获取当前一轮自动答复内容,当前一轮主叫方的说话文本及当前一轮自动答复内容为当前一轮的双方对话文本;

步骤503、将所有对话文本输入步骤6中进行判别,如果获取到意图结果则中断进行自动对话文本生成,否则转到步骤501;

步骤6、使用LDA主题算法模型实时判断步骤5得到的多轮对话文本的主题,并结合BERT-RCNN模型实时进行骚扰意图打分;当骚扰意图评分高于预先设计的置信度就将电话识别为骚扰电话进行屏蔽,否则进行转接,其中,使用LDA主题算法模型及BERT-RCNN模型进行骚扰意图判别具体包括如下步骤:

步骤601、获取第i轮对话的语料;

步骤602、将步骤601获得的语料内容输入训练好的BERT-RCNN模型中,并输出一维向量结果[x1,x2],其中,x1表示对话为非骚扰电话的评分,x2表示对话为骚扰电话的评分;

步骤603、将步骤601获得的语料内容输入LDA主题算法模型中进行主题预测,输出当前语料命中的主题列表及相关度,取相关度最高的主题得到[y1,z,label],其中,y1为命中的主题类别,z为主题的相关度,label为该主题的标签属性,通过标签属性表示是否为骚扰类别主题;

步骤604、若步骤603获取的标签属性label为非骚扰类别主题,则第i轮对话得分score1、score2分别为:

score1=(x1+z)*i+score1_pre;

score2=x2*i+score2_pre;

否则第i轮对话得分score1、score2分别为:

score1=x1*i+score1_pre;

score2=(x2+z)*i+score2_pre,

score1_pre和score2_pre分别为第i-1轮对话的评分;

步骤605、若score1score2,且score1超过置信度C,则终止基于GPT-dialog生成式问答模型进行智能对话,并且进行电话转接;

若score1score2,且score2超过置信度C,则终止基于GPT-dialog生成式问答模型进行智能对话,并且对电话进行屏蔽;

否则将i更新为i+1,转到步骤602进行下一轮对话。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京万得资讯科技有限公司,未经南京万得资讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110312923.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top