[发明专利]文本意图识别方法、装置及存储介质在审
申请号: | 202010862153.2 | 申请日: | 2020-08-24 |
公开(公告)号: | CN114090726A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 张钊;徐坤;孟函可;王宝军;张宇洋 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/35;G06F40/211;G06F40/295;G06F40/30 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;李稷芳 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 意图 识别 方法 装置 存储 介质 | ||
1.一种文本意图识别方法,其特征在于,包括:
根据预先构造的实体字典库,确定待识别文本中的至少一个实体以及所述至少一个实体中每个实体在所述待识别文本中的位置;
对所述每个实体以及所述每个实体在所述待识别文本中的位置进行编码,得到与所述每个实体对应的第一特征向量;
对所述待识别文本中的每个单词分别进行编码,得到所述每个单词对应的第二特征向量;
根据所述每个实体对应的第一特征向量以及所述每个单词对应的第二特征向量,确定所述待识别文本对应的意图。
2.根据权利要求1所述的方法,其特征在于,所述对所述每个实体以及所述每个实体在所述待识别文本中的位置进行编码,得到与所述每个实体对应的第一特征向量,包括:
对所述每个实体进行编码,得到所述每个实体对应的第三特征向量;
对所述每个实体在所述待识别文本中的位置进行编码,得到所述每个实体对应的第四特征向量;
将所述每个实体对应的第三特征向量以及第四特征向量进行叠加,得到所述每个实体对应的第一特征向量。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述每个实体对应的第一特征向量以及所述每个单词对应的第二特征向量,确定所述待识别文本对应的意图,包括:
根据注意力机制,将所述每个单词对应的第二特征向量与所述每个实体对应的第一特征向量进行融合,得到所述每个单词对应的第五特征向量;
将所述每个单词对应的第五特征向量与所述每个单词对应的第二特征向量进行叠加,得到所述每个单词对应的目标特征向量;
根据所述每个单词对应的目标特征向量,确定所述每个单词对应的槽位填充结果;
根据所述每个单词对应的槽位填充结果,得到所述待识别文本的意图。
4.根据权利要求3所述的方法,其特征在于,所述根据注意力机制,将所述每个单词对应的第二特征向量与所述每个实体对应的第一特征向量进行融合,得到所述每个单词对应的第五特征向量,包括:
确定第一单词对应的第二特征向量与所述每个实体对应的第一特征向量之间的相似度,得到与所述每个实体对应的相似度;
将所述至少一个实体对应的相似度进行归一化处理,得到所述每个实体对应的权重;
根据所述每个实体对应的权重,对所述至少一个实体对应的第一特征向量进行加权处理,得到所述每个单词对应的第五特征向量。
5.根据权利要求1-4中任一项所述的方法,其特征在于,根据预先构造的实体字典库,确定待识别文本中的至少一个实体以及所述至少一个实体中每个实体在所述待识别文本中的位置之前,所述方法还包括:
构造各个领域内的实体;
通过trie树对所述各个领域内的实体进行加载,得到所述预先构造的实体字典库。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述方法还包括:
更新所述实体库中的实体的类型。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述意图文本识别方法是通过网络模型执行的,所述网络模型通过以下步骤训练得到:
获取第一文本序列;
对所述第一文本序列中的部分词语进行替换,得到至少一个第二文本序列;
将所述至少一个第二文本序列中的任意一个第二文本序列输入到所述网络模型,预测所述第二文本序列中每个单词对应的槽位填充结果以及所述第二文本序列对应的意图;
根据预测的所述第二文本序列中每个单词对应的槽位填充结果以及所述第二文本序列对应的意图,调整所述网络模型的模型参数,以对所述网络模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010862153.2/1.html,转载请声明来源钻瓜专利网。