[发明专利]一种基于预训练的搜索问答系统有效
申请号: | 201911341560.2 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111125334B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 申冲;张传锋;朱锦雷;薛付忠;杨帆 | 申请(专利权)人: | 神思电子技术股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/951 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 赵玉凤 |
地址: | 250000 山东省济南市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 训练 搜索 问答 系统 | ||
本发明公开一种基于预训练的搜索问答系统,包括噪音判断模块、QA问答模块、知识匹配模块和响应输出模块;噪音判断模块对用户问题是否属于噪音进行判断,QA问答模块包括规则录入单元和规则解析单元,知识匹配模块对问题与问答库中的知识进行索引并作出相似度排序,知识索引包括倒排索引和Annoy索引两种方式,响应输出模块用于输出响应,响应包括相似问题列表、准确答案、无答案、推荐热门问题四种类型。本发明可以有效解决知识泛化迁移、噪音判断和QA定制的问题,在改善用户体验的同时,极大的提高问答效率。
技术领域
本发明涉及一种基于预训练的搜索问答系统,是一种基于预训练获得语言模型和现有的问答数据库,并对客户问题进行交互的系统,属于自然语言处理和机器学习领域。
背景技术
搜索问答系统,是指系统接受到用户问题,在问答知识库中进行相似问题搜索并排序,向用户展示一个相似问题列表,并让用户进行选择,以最大可能的解决用户问题。目前各类知识库问答系统、智能客服助手、自助机等终端设备中都采用此种问答模式。区别于传统的对话系统,对话系统的重点在于交互,而搜索问答系统的重点在于提高更加准确的相似问题列表,其没有对话系统那么多的上下文状态需要维护,也不完全需要精确的问答响应。在终端设备中,语音识别准确率、客户口语化问题仍然是制约对话系统发展的关键原因。搜索问答系统可通过推荐相似问题列表这种简单高效的方式来缓解这个问题,但是也仍然面临着前5推荐准确率较低的问题。影响前5推荐准确率低的因素主要有三个,分别是口语泛化、噪音影响和固定问题需要准确答案。
搜索问答系统往往针对一个行业具有大量的数据量,且用户的问答形式更加多种多样。用户的问题可能来自终端语音识别设备采集(噪音干扰),或行业网站问询等,具有更加普遍的口语化。以税务行业为例,“缴税”,用户更可能会说“交多少钱”。事实上,行业客户往往只提供问答对,即一个标准问题对应一个标准答案,并没有标准问题的泛化,当系统接收到用户问题时,只能依次与问答知识库中的问题进行匹配。因此,搜索问答系统也面临这大量的口语泛化问题。
搜索问答系统是推荐相似问题列表,而系统不可能对任何问题都做出响应。一种解决办法是设定用户问题与问答知识库中问题相似度的最低阈值,低于这个阈值便不做出响应。但是,由于不同问题与知识库中问题的相似度差距较大,很难选择一个合适的阈值来避免噪音问题。
另外,搜索问答系统仍可能会面临一些定制问答,即用户系统输入固定问题可以准确给出固定答案,而不是返回相似问题列表,比如终端设备页面的跳转指令、用户的一些常用宣传、操作指令等,搜索问答系统仍然需要具有定制QA问答功能。
发明内容
本发明要解决的技术问题是提供一种基于预训练的搜索问答系统,可以有效解决知识泛化迁移、噪音判断和QA定制的问题,在改善用户体验的同时,极大的提高问答效率。
为了解决所述技术问题,本发明采用的技术方案是:一种基于预训练的搜索问答系统,包括噪音判断模块、QA问答模块、知识匹配模块和响应输出模块;噪音判断模块通过行业词库和排除词库对用户问题是否属于噪音进行判断,当用户问题包含有行业词且不包含排除词时,被认定为非噪音,进入QA问答模块进行解析,否则被认定为噪音,响应输出模块返回热门推荐问题或者无响应;
QA问答模块包括规则录入单元和规则解析单元,规则解析单元对规则录入单元录入的用户问题进行解析,并判断解析出的用户问题是否必须要准确返回答案,如果是,则响应输出模块输出该问题对应的标准答案,如果否,则将解析出的问题送入知识匹配模块;
知识匹配模块对问题与问答库中的知识进行索引并作出相似度排序,知识索引包括倒排索引和Annoy索引两种方式,Annoy索引基于语义模型,语义模型是在预训练模型的基础之上,通过训练数据生成、fine-tuning得到,语义模型最后一层和倒数第二层的输出作为问题向量进行Annoy索引,相似度计算与排序时,综合考虑向量相似度、问题问答频次和文本对齐比率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于神思电子技术股份有限公司,未经神思电子技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911341560.2/2.html,转载请声明来源钻瓜专利网。