[发明专利]智能问答方法、装置、存储介质和设备在审
| 申请号: | 202310219193.9 | 申请日: | 2023-03-09 |
| 公开(公告)号: | CN116401345A | 公开(公告)日: | 2023-07-07 |
| 发明(设计)人: | 杨娟;翟士丹;王博;于政;王道广;鲍红飞 | 申请(专利权)人: | 北京海致星图科技有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06N20/00 |
| 代理公司: | 北京科家知识产权代理事务所(普通合伙) 11427 | 代理人: | 赵莹子 |
| 地址: | 100083 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 智能 问答 方法 装置 存储 介质 设备 | ||
1.一种智能问答方法,其特征在于,所述方法包括:
对多个文档数据进行预处理,获得无标注训练数据、文档段落集和文档片段集;
利用所述无标注训练数据对预训练模型进行继续训练,其中,所述预训练模型在大规模通用语料上训练得到;
针对待回答问题,使用召回算法对所述文档段落集和所述文档片段集进行粗召回,获得候选段落和候选片段,并对所述候选片段进行后处理;
将待回答问题依次与每一条候选段落和后处理后的候选片段进行拼接,获得多条待预测数据;
将所述多条待预测数据输入继续训练好的模型中,获取输入文本向量特征;
将所述输入文本向量特征输入答案抽取层获得所述待回答问题对应的答案。
2.根据权利要求1所述的方法,其特征在于,
每一条所述无标注训练数据为所述文档数据中的一个完整的句子;
所述文档数据中的一个段落文本为所述文档段落集中一条独立数据,所述文档段落集中忽略各段落文本的顺序信息;
所述文档片段集中每一个文本片段包含所述文档数据中的若干段落,且包含所述若干段落的顺序信息,和/或所述文档片段集中每一个文本片段包含所述文档数据中的某一段落的部分内容。
3.根据权利要求1所述的方法,其特征在于,针对待回待问题,使用召回算法对所述文档段落集和所述文档片段集进行粗召回,获得候选段落和候选片段包括:
去掉所述待回答问题中的停用词;
使用BM25召回算法分别对所述文档段落集和所述文档片段集进行检索;
对检索结果进行排序后获得排序靠前的预设数目个候选段落和候选片段。
4.根据权利要求1所述的方法,其特征在于,对所述候选片段进行后处理包括:
使用标点符号将所述候选片段切分为若干子片段;
计算每一个所述子片段与所述待回答问题之间的编辑距离;
根据所述编辑距离获得所述待回答问题的最匹配子片段;
以所述最匹配子片段为基准向后进行文本扩充,所述文本扩充以表示句子完整性的标点符号结尾,同时所述最匹配子片段和所述扩充文本的长度限制在预设字数内;
将所述最匹配子片段及其扩充文本进行合并,获得后处理后的候选片段。
5.根据权利要求4所述的方法,其特征在于,当根据所述编辑距离无法获得与所述待回答问题最匹配的子片段时,比较每一个所述子片段与所述待回答问题的字符特征,根据字符特征获得所述待回答问题的最匹配子片段。
6.根据权利要求5所述的方法,其特征在于,
如无法获得满足条件的最匹配子片段,则以所述候选片段为基准向后进行文本扩充,所述文本扩充以表示句子完整性的标点符号结尾,同时所述候选片段和所述扩充文本的长度限制在预设字数内;
将所述候选片段及其扩充文本进行合并,获得后处理后的候选片段。
7.根据权利要求1所述的方法,其特征在于,每一条所述待预测数据的形式为:[CLS]+query+[SEP]+text+[SEP],其中,所述[CLS]、[SEP]分别为所述继续训练好的模型所需的特殊标识符,query为待回答问题,text为一条候选段落或一条候选片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海致星图科技有限公司,未经北京海致星图科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310219193.9/1.html,转载请声明来源钻瓜专利网。





