[发明专利]意图识别系统及方法有效
| 申请号: | 202010147562.4 | 申请日: | 2020-03-05 |
| 公开(公告)号: | CN111382231B | 公开(公告)日: | 2022-07-08 |
| 发明(设计)人: | 曹家波 | 申请(专利权)人: | 思必驰科技股份有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06F40/30;G06F40/247;G06K9/62;G06N3/04 |
| 代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;车江华 |
| 地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 意图 识别 系统 方法 | ||
本发明公开一种意图识别系统,包括:顺序连接的编码模块和分类模块,其中,所述编码模块配置为获取待识别文本的语义特征向量;所述分类模块配置为根据所述待识别文本的语义特征向量从预设的多个样本意图类别原型中确定所述待识别文本的文本意图。本发明实现了对于小样本领域的文本的意图识别,解决了现有技术中对小样本领域的文本进行意图识别所存在的耗时耗力,且泛化性差,训练成本太高的问题。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种意图识别系统及方法。
背景技术
现有技术中实现小样本意图识别的方法有:基于数据增强的小样本意图识别和基于语言模型fine-tune的小样本意图识别。
基于数据增强的小样本意图识别:意图识别本质就是文本分类,文本分类的性能好坏与人工标注数据的多少有着直接的关系。实际的项目研究中,特别是刚起步阶段,每种意图的人工标注数据特别少,一是标注成本太高,二是冷启动项目的待标注样本本身就很少。基于数据增强的算法,大多是采用规则、回译等手段来增加每种意图的样本个数。其中,规则指的是使用正则表达式对每种意图样本中的关键词做同义词替换,以此来增加样本的个数;回译指的是通过翻译软件把中文样本翻译成各种第三方语言,然后再翻译回来,通过这种方式增加每种意图的样本个数。最后,当所有意图的样本个数达到要求之后,就可以采用传统文本分类算法如 SVM、LR、GBDT或者深度学习算法如CNN、LSTM、Transformer等完成意图的识别。
基于语言模型fine-tune的小样本意图识别:这种方法是首先在大规模、通用的无监督数据中,训练一个语言模型。这个语言模型网络参数不是随机初始化的,而是在大量文本中,通过学习语言的先验知识学习得到的。这是个通用模块,在具体的项目开发中,虽然每种意图的人工标注数量很少,但是在这个先验的网络结构的基础之上开始做具体领域的fine-tune训练,可以利用语言的通用知识,让网络结构更好的捕获样本的语义信息,从而提升小样本的意图识别性能。
基于数据增强的小样本意图识别:需耗费大量人力设计替换规则,完善同义词字典。同时,回译软件质量的高低也对结果影响很大,翻译过来的句子一般都是比较正式的书面语,对口语意图识别不适用,应用场景受限。耗时耗力,且泛化性差,维护成本高,可移植性差。
基于语言模型fine-tune的小样本意图识别:基于海量文本(100G以上)的语言模型训练需要大量的GPU或者TPU参与,训练一次的代价很大,以目前最先进的基于BERT的语言模型为例,谷歌用了16个自己的 TPU集群(一共64块TPU)来训练BERT,一共花了约4天的时间,花费1.2万美金,如果训练XLNET,花费高达6.1万美金。目前只有少数的大公司才能完成语言模型的训练。语言模型在具体应用场景的最终性能好坏与特定领域的语料多少有关系,需要自定义训练,代价太大。基于海量文本的语言模型训练成本太高,在特定领域不一定有很好的性能。
发明内容
本发明实施例提供一种意图识别系统及方法,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种意图识别系统,包括:顺序连接的编码模块和分类模块,其中,
所述编码模块配置为获取待识别文本的语义特征向量;
所述分类模块配置为根据所述待识别文本的语义特征向量从预设的多个样本意图类别原型中确定所述待识别文本的文本意图。
在一些实施例中,所述多个样本意图类别原型中的每一个样本意图类别原型由各自对应的多个样本待识别文本的语义特征向量的均值确定;
所述根据所述待识别文本的语义特征向量从预设的多个样本意图类别原型中确定所述待识别文本的文本意图包括:
计算所述待识别文本的语义特征向量与预设的多个样本意图类别原型之间的相似度值;
根据计算得到的最大相似度值所对应的样本意图类别原型确定所述待识别文本的文本意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010147562.4/2.html,转载请声明来源钻瓜专利网。





