[发明专利]基于上下文的对话文本分类方法、系统、设备及存储介质在审
| 申请号: | 202111620917.8 | 申请日: | 2021-12-27 | 
| 公开(公告)号: | CN114357162A | 公开(公告)日: | 2022-04-15 | 
| 发明(设计)人: | 王森灏;罗超 | 申请(专利权)人: | 携程旅游信息技术(上海)有限公司 | 
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/211;G06F40/284;G06F40/30;G06N3/04;G06N3/08 | 
| 代理公司: | 上海隆天律师事务所 31282 | 代理人: | 钟宗 | 
| 地址: | 201203 上海市浦东新*** | 国省代码: | 上海;31 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 基于 上下文 对话 文本 分类 方法 系统 设备 存储 介质 | ||
本发明提供了基于上下文的对话文本分类方法、系统、设备及存储介质,该方法包括:将待分类的对话文本按照对话轮次进行分割获得子语句;对子语句加入字段分离符,通过分词模型输出对子语句进行分词后的词序列;获得子语句的第一语义嵌入特征向量;拼合第一语义嵌入特征向量,获得第二对话文本嵌入特征向量;根据第二对话文本嵌入特征向量对应替换每个第一语义嵌入特征向量中字段分离符对应的向量,进行第三次语义特征提取,获得第二语义嵌入特征向量;将所有第二语义嵌入特征向量进行动态池化,获得文本嵌入特征向量,进行文本分类。本发明能够通过融合上下文信息,帮助模型更好的提取句子级别的隐层特征,大大提升对话文本分类的准确性。
技术领域
本发明涉及自然语言处理领域,具体地说,涉及基于上下文的对话文本分类方法、系统、设备及存储介质。
背景技术
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。
在OTA(在线旅游公司)行业中,客服在提升服务质量方面扮演着非常重要的角色,对于客人而言,服务质量好坏的直接感受来自于与客服人员的对话,因此,对客人与客服的对话进行必要的监控对于提升服务口碑有着重要的意义。然而,当前采用的AI建模方式存在着对于文本语义的理解有限的问题,对于一些特定的质检监控任务,例如监控客人辱骂、投诉等案例中,当前采用的HAN模型容易产生关键句定位不够准确、对句子级别语义提取的质量不够好等问题。与此同时,受限于OTA行业中实时性的要求,无法采用Bert这种过大的模型。
Hierarchical Attention Network(HAN)模型用来做文章分类的任务,该算法提出的动机是考虑到在一个句子中,不同的单词对于决定这个句子的含义起着不同的作用;然后在一篇文章中,不同的句子又对于该文档的分类起着不同的作用。所以这篇层次Attention模型分别在单词层次和句子层次添加了一个Attention机制。实验结果表明这种机制可以提升文章分类的效果,同时通过Attention的权值向量的权值可以看出究竟哪些句子以及哪些单词对文档分类起着更重要的作用。HAN的网络结构主要包括word encoder层、word attention层、sentence encoder层、sentence attention层以及softmax层。wordencoder层:对词汇进行编码,建立词向量。接着用双向GRU从单词的两个方向汇总信息来获取单词的注释,因此将上下文信息合并到句子向量中。word attention层:接着对句子向量使用Attention机制。sentence encoder层:与上面一样,根据句子向量,使用双向GRU构建文档向量。sentence attention层:对文档向量使用Attention机制。softmax层:常规的输出分类结果。
对于OTA的对话场景来说,需要一种新的对话建模方案,要求它能够融合上下文语义来帮助提取句子级别的语义,且对于关键句的定位足够准确,同时又要满足实时性的需求。
因此,本发明提供了一种基于上下文的对话文本分类方法、系统、设备及存储介质。
发明内容
针对现有技术中的问题,本发明的目的在于提供基于上下文的对话文本分类方法、系统、设备及存储介质,克服了现有技术的困难,能够通过融合上下文信息,帮助模型更好的提取句子级别的隐层特征,大大提升对话文本分类的准确性。
本发明的实施例提供一种基于上下文的对话文本分类方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程旅游信息技术(上海)有限公司,未经携程旅游信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111620917.8/2.html,转载请声明来源钻瓜专利网。





