[发明专利]一种提高问答系统泛化能力的方法有效
| 申请号: | 202011494614.1 | 申请日: | 2020-12-17 |
| 公开(公告)号: | CN112507097B | 公开(公告)日: | 2022-11-18 |
| 发明(设计)人: | 申冲;张汉同;张传锋;祖丕国;王太浩;朱锦雷 | 申请(专利权)人: | 神思电子技术股份有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/31;G06F16/35;G06F16/36;G06F40/211;G06F40/284;G06F40/30;G06K9/62 |
| 代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 赵玉凤 |
| 地址: | 250000 山东省济南市*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 提高 问答 系统 泛化 能力 方法 | ||
本发明提出了一种可以自动提高系统泛化能力、提高系统召回能力的方法,通过使用相似词和相似问题自动生成技术,从词和句子两个粒度来改善问答系统中的检索与排序,提高系统召回率,增强系统泛化能力,尽可能避免人工参与,极大的提高了系统的易用性。
技术领域
本发明涉及自然语言处理和机器学习领域,具体是一种提高问答体现泛化能力的方法。
背景技术
从用户体验角度来看,目前业界现有的业务咨询问答系统,主要有2类问答模式:一类是问答型,即针对用户的每个有效问题,都会给出一个明确的回复或答案;另一类则是搜索型,针对用户问题,返回一个相似的问题列表。
两种问答模型都依赖一个问答库,即问题-答案集合,当系统接收到用户问题时,都需要从问答库中检索出相关的问题列表然后进行排序,搜索型问答系统直接返回若干相关的问题列表,而问答型系统则在此基础之上加了一个判断机制,判断该用户问题是否有准确答案。
由此可见,不论哪一种业务咨询问答系统,都需要针对用户的问题对库中的知识进行检索、排序。检索是所有问答系统中的第一步,排序算法是对检索结果的排序。从某种程度上来说,检索系统的准确率直接决定了整个问答系统的准确率。
给定一个问题集和用户问题,如何筛选出相关问题呢,考虑到时效性,目前应用较多的是倒排索引,通过构建词与问题的索引,来快速筛选出相关的问题列表,然后经过排序算法进行排序返回。
但是这种方法只能在已有知识(问答库)中构建索引,或者说,只能对问答库中已有的分词构建倒排索引,如果用户的问题中含有问答库中不包括的分词,倒排索引是检索不出来的,即仅仅使用倒排索引无法解决各类的口语泛化问题。很明显,倒排索引本身不具有泛化能力。举个例子,假设问答库中有个问题是“水费无法缴纳的原因”,用户问题为“水费为啥不能交”,系统是无法将“无法-不能”、“原因-为啥”、“缴纳-交”来对应起来的。
传统方法是基于规则、模板等人工方式来进行相似词表、相似问题表的构建(如专利CN201810768888.1、CN201911081549.7 等),这种方法耗时耗力且不易维护。
发明内容
针对现有技术的缺陷,本发明提高一种提高问答系统泛化能力的方法,通过词向量检索相似词和相似问题生成两种方式来改进问答系统中的检索与排序,本发明提出的方法则不需要人工的介入,完全依赖深度学习技术自动完成,在提高系统泛化能力的同时,极大减少人工成本。
为了解决所述技术问题,本发明采用的技术方案是:通过词嵌入矩阵来获得相似词表;通过相似问题生成来获得相似问题列表;通过词向量、句向量来获得标准差与相似词、标准问题与相似问题的相似度;通过上述结果来改善系统的检索、排序效果。该方案包括以下步骤:
(1)训练词向量。直接使用开源的词向量或者自己训练,这由可获得的行业数据量的多少来决定。如果自己训练的话,首先需要根据行业用户给定的对话语料,首先通过tf-idf技术抽取行业关键词;依据行业关键词,从百度咨询、百度知道、百度百科中爬取大量的行业弱相关知识(因为关键词是自动抽取的,可能与具体行业关联并没有那么紧密,所以依据关键词爬取的知识,并非全部是与行业相关的,如“办理”,金融行业、税务行业都有该业务类型),并依此使用word2vec技术训练词嵌入矩阵。
(2)抽取相似词表。依据词嵌入矩阵,使用高维向量相似度快速索引技术(目前比较成熟的技术由kd树、Annoy、Faiss等)来构建词向量索引,依此可以快速抽取行业关键词的相似词,然后使用余弦相似度来计算词与词之间的相似度并保存。
(3)获取相似问题生成训练语料。从第一步中,通过行业关键词从百度知道中获得了大量的问答对(使用1000个关键词即可爬取百万左右的问答对,但需要借助代理ip技术),然后使用预训练模型I(使用roberta-large效果较好,也可使用其他预训练模型)获取所有问题的向量表示,同第二步一样,使用高维向量索引技术来进行问题的聚类,依次构建大量的相似问题对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于神思电子技术股份有限公司,未经神思电子技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011494614.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:浅埋暗挖隧道开挖支护体系及施工方法
- 下一篇:一种轮胎花纹检测装置及方法





