[发明专利]智能问答方法、装置、存储介质和设备在审
| 申请号: | 202310219193.9 | 申请日: | 2023-03-09 |
| 公开(公告)号: | CN116401345A | 公开(公告)日: | 2023-07-07 |
| 发明(设计)人: | 杨娟;翟士丹;王博;于政;王道广;鲍红飞 | 申请(专利权)人: | 北京海致星图科技有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06N20/00 |
| 代理公司: | 北京科家知识产权代理事务所(普通合伙) 11427 | 代理人: | 赵莹子 |
| 地址: | 100083 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 智能 问答 方法 装置 存储 介质 设备 | ||
本发明实施例提供一种智能问答方法、装置、存储介质和设备,该方法包括:对多个文档数据进行预处理,获得无标注训练数据、文档段落集和文档片段集,利用无标注训练数据对预训练模型进行继续训练,针对待回答问题,使用召回算法对文档段落集和文档片段集进行粗召回,获得候选段落和候选片段,并对候选片段进行后处理,将待回答问题依次与每一条候选段落和后处理后的候选片段进行拼接,获得多条待预测数据,将多条待预测数据输入继续训练好的模型中,获取输入文本向量特征,将输入文本向量特征输入答案抽取层获得所述待回答问题对应的答案。本发明能够提高问答效率和准确率,且能够支持跨段落的待回答问题。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种智能问答方法、装置、存储介质和设备。
背景技术
智能问答系统是属于信息检索的一种表现形式。文档智能问答即基于具体的文档,通过理解用户的具体问题,定位并返回满足问题的相关文本。通常,文档智能问答系统包含多种,比如:FAQ检索式问答系统,KBQA图谱问答系统,MRC问答系统等。其中MRC问答系统由于提问方式灵活,无需预订信息等优点被广泛应用。
现有的MRC问答系统首先文档解析成段落集存入数据库,之后根据用户提出的待回答问题,从数据库中粗召回候选段落,再利用文本匹配模型对候选段落进行精排,将用户待回答问题以及最相关段落文本输入阅读理解模型,返回答案。
现有的MRC问答系统目前存在以下问题:
a.目前精排使用的文本匹配算法和获取答案使用的阅读理解模型,均使用预训练模型作文本的向量表示,对于一个问答系统来说,如果计算机资源有限的条件下,一个流程内多次使用预训练模型,会使得系统的推理速度变慢。
b.目前的MRC阅读理解模型缺少拒识能力,导致模型抽取的无效答案也被返回给用户。
c.由于需要将文档解析成为段落进行存储,导致召回的段落之间相互孤立,丢失了段落原本的上下文联系,如果待回答问题的答案是跨段落的,而召回的段落又缺少上下文段落,则会导致MRC问答系统无法支持答案跨段落的待回答问题。
d.基于通用语料训练的预训练模型对垂直领域的文档文本表征能力不强,会影响阅读理解模型的抽取准确度。
发明内容
有鉴于此,本发明提供一种智能问答方法、装置、存储介质和设备,能够提高问答效率和准确率,且能够支持跨段落的待回答问题。
第一方面,本发明实施例提供一种智能问答方法,所述方法包括:
对多个文档数据进行预处理,获得无标注训练数据、文档段落集和文档片段集;
利用所述无标注训练数据对预训练模型Bert进行继续训练,其中,所述预训练模型Bert在大规模通用语料上训练得到;
针对待回答问题,使用召回算法对所述文档段落集和所述文档片段集进行粗召回,获得候选段落和候选片段,并对所述候选片段进行后处理;
将待回答问题依次与每一条后处理后的候选段落和候选片段进行拼接,获得多条待预测数据;
将所述多条待预测数据输入继续训练好的模型中,获取输入文本向量特征;
将所述输入文本向量特征输入答案抽取层获得所述待回答问题对应的答案。
进一步地,每一条所述无标注训练数据为所述文档数据中的一个完整的句子;
所述文档数据中的一个段落文本为所述文档段落集中一条独立数据,所述文档段落集中忽略各段落文本的顺序信息;
所述文档片段集中每一个文本片段包含所述文档数据中的若干段落,且包含所述若干段落的顺序信息,和/或所述文档片段集中每一个文本片段包含所述文档数据中的某一段落的部分内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海致星图科技有限公司,未经北京海致星图科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310219193.9/2.html,转载请声明来源钻瓜专利网。





