[发明专利]意图识别方法、系统、计算机设备及计算机可读存储介质在审
| 申请号: | 202011328294.2 | 申请日: | 2020-11-24 |
| 公开(公告)号: | CN112417859A | 公开(公告)日: | 2021-02-26 |
| 发明(设计)人: | 江丹丹;景艳山 | 申请(专利权)人: | 北京明略昭辉科技有限公司 |
| 主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/126;G06F16/35;G06N3/04 |
| 代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 李红岩 |
| 地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 意图 识别 方法 系统 计算机 设备 可读 存储 介质 | ||
本申请涉及一种意图识别方法、系统、计算机设备和计算机可读存储介质,其中,该意图识别方法包括:数据获取步骤,用于获取待识别文本;数据预处理步骤,用于对所述待识别文本进行分词并提取关键词,将分词结果及所述关键词转换为向量表示,得到所述待识别文本的字符向量和关键词向量;文本编码步骤,用于利用循环神经网络分别对所述字符向量和关键词向量进行编码,得到所述待识别文本的字符编码及关键词编码;意图识别步骤,用于拼接所述字符编码及关键词编码得到所述待识别文本的句子编码,将所述句子编码经一第一全连接层及一Softmax层进行分类并输出文本分类结果,完成意图识别。通过本申请,有效提高分词效果准确率,解决了现有技术对简单样本的分类效果好而较难样本的分类效果差的问题。
技术领域
本申请涉及对话系统技术领域,特别是涉及意图识别方法、系统、计算机设备及计算机可读存储介质。
背景技术
在对话系统中,意图识别是一项必不可少的任务,对于用户向系统发送的每一个请求,系统都需要准确理解用户的意图,然后给予正确的答复,提高用户的满意度。人与系统进行多次交互,即可实现多轮对话。意图识别错误,则给出的答复也偏离了用户的真实需求,势必会降低用户继续使用该对话系统的兴趣。
而意图识别本身是一个分类问题,现有的方法主要包括:
1)基于规则模版的意图识别方法,该方法需要人为构建规则模版以及类别信息对用户意图文本进行分类。例如对于航空领域,“订机票”有很多种不同的表达:
①“我要订机票”;
②“有去XX的航班吗”;
③“帮我查一下机票”等等。
根据规则模板的意图识别对于“订机票”这个意图制定的规则为:句子中出现“订机票”三个字,则该句子的意图为“订机票”。至此,仅有第一句能被识别为“订机票”,第二句和第三句则无法识别。
该方法虽然不需要大量的训练数据就可以保证一定的识别准确性,但是模版的覆盖率较低,很多输入query的意图无法识别,特别是在口语化严重的情况下;在意图文本更换类别时,需要专业人员重新构造模版,由此带来的高成本问题无法解决。
2)基于传统机器学习的意图识别方法,该方法需要对语料文本进行关键特征的提取,如关键字、关键词、N-Gram等,然后训练分类器进行意图分类。常用的方法有朴素贝叶斯、支持向量机、逻辑回归、Adaboost等。以支持向量机做意图识别为例,分为四个步骤:文本特征提取、文本特征表示、归一化处理和文本分类。
文本特征提取时先分词并去除停用词,通过例如词频特征选择方法提取特征,使用词频计算出权重并排序,选取TopK个词汇代表文本的语义。直接使用词频进行比较时,容易发生较大的偏差,进行归一化能使文本分类更加精确。经过特征提取、特征表示和归一化处理之后,原文本信息被抽象成一个向量化的样本集,文本分类步骤将此样本集与训练好的模版文件进行相似度计算,若不属于该类别,则与其他类别的模版文件进行计算,直到分到相应的类别。
基于传统机器学习的意图识别方法需要人工提取特征,如关键字、关键词、N-Gram等,成本高,特征的准确性无法保障;存在数据稀疏的问题;同时其传统机器学习方法的分类准确率低,泛化性能较差。
3)基于神经网络的意图识别方法
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略昭辉科技有限公司,未经北京明略昭辉科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011328294.2/2.html,转载请声明来源钻瓜专利网。





