[发明专利]基于Bert模型的意图识别方法、装置及相关设备有效
申请号: | 202110319798.6 | 申请日: | 2021-03-25 |
公开(公告)号: | CN113051930B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 王伟;黄勇其;于翠翠;张黔 | 申请(专利权)人: | 华润数字科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/216;G06F40/284;G06F40/289 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 周翀 |
地址: | 518000 广东省深圳市福田区梅林街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 bert 模型 意图 识别 方法 装置 相关 设备 | ||
1.一种基于Bert模型的意图识别方法,其特征在于,包括:
对训练语料进行分词处理得到多个单词,并基于多个所述单词构建语料矩阵,其中,所述训练语料包含多个对话序列;
根据所述训练语料中每个对话序列的先后顺序确定所述对话序列内每个单词的对话序列标识向量;以及获取所述训练语料中每一单词在所述语料矩阵的邻接词序列,并根据所述邻接词序列计算得到对应的邻接语义向量;
获取所述训练语料中每一单词的词向量及位置向量,并对每一单词对应的所述词向量、位置向量、对话序列标识向量以及邻接语义向量进行组合,得到所述训练语料每一单词的输入向量;
基于所述输入向量,通过预置的Bert模型对所述输入向量进行预测,得到所述输入向量所属意图的预测概率,从而构建意图识别模型;
获取待识别的目标语料对应的目标输入向量,通过所述意图识别模型进行意图识别,得到意图识别结果;
所述对训练语料进行分词处理得到多个单词,并基于多个所述单词构建语料矩阵的步骤之前,包括:
获取样本语料,统计样本语料中每个所述对话序列中每一单词的词频和逆文档频率,并计算所述词频和逆文档频率的乘积,得到每个单词对应的TF-IDF值;
将所述对话序列中每个单词按照所述TF-IDF值从低到高排序并标识位置序号,得到TF-IDF属性队列;
统计所述对话序列中所有单词的所属词性,并根据所述词性对应的占比从低到高对所述对话序列中的单词进行排序并标识位置序号,得到词性属性队列,所属词性至少包括名词、副词、形容词;
计算所述对话序列每个单词在所述TF-IDF属性队列及词性属性队列中对应的位置序号乘积,并根据乘积结果从低到高排序,得到mask队列;
对所述mask队列的单词进行随机遮掩,得到所述训练语料;
所述对所述mask队列的单词进行随机遮掩,得到所述训练语料,包括:
随机从所述mask队列中选择若干单词作为目标遮掩单词,其中单词在所述mask队列中越靠前,被选择的概率越低;
按预置比例从所述目标遮掩单词中选择一部分替换为所述样本语料中的任意一个单词,从所述目标遮掩单词中选择一部分替换为指定符号,以及保持其余部分不变,得到所述训练语料;
所述获取所述训练语料中每一单词在所述语料矩阵的邻接词序列,并根据所述邻接词序列计算得到对应的邻接语义向量,包括:
根据每个单词与所述语料矩阵中其他单词的距离确定所述语料矩阵中每个单词的邻接词序列;
基于所述邻接词序列,采用预置的GRU模型计算每个单词的前向邻接语义向量和后向邻接语义向量,并将所述前向邻接语义向量和后向邻接语义向量进行拼接,得到所述邻接语义向量,其中,每个单词至少存在一个邻接语义向量;
在所述基于所述邻接词序列,采用预置的GRU模型计算每个单词的前向邻接语义向量和后向邻接语义向量,并将所述前向邻接语义向量和后向邻接语义向量进行拼接,得到所述邻接语义向量之后,还包括:
按预置邻接语义规则对每一所述单词的所有邻接语义向量进行排序,得到邻接向量矩阵及标签向量,所述标签向量为所述邻接向量矩阵中每个邻接语义向量的序号;
根据预置权重矩阵函数计算所述邻接向量矩阵中每一所述邻接语义向量的权重。
2.根据权利要求1所述的意图识别方法,其特征在于,所述对训练语料进行分词处理得到多个单词,并基于多个所述单词构建语料矩阵,包括:
对所述训练语料进行分词,得到每一对话序列中提问与回答的所有单词;
按顺序将每一对话序列中提问与回答的所有单词进行排列,并在每一提问以及每一回答的首个单词前分别添加提问序号和回答序号,以及对未填充部分进行补全,构建n×n语料矩阵。
3.根据权利要求1所述的意图识别方法,其特征在于,所述根据所述训练语料中每个对话序列的先后顺序确定所述对话序列内每个单词的对话序列标识向量,包括:
按时间顺序定义所述训练语料中每个对话序列的序号;
将所述序号作为对应对话序列内每个单词的对话序列标识向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华润数字科技有限公司,未经华润数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110319798.6/1.html,转载请声明来源钻瓜专利网。