[发明专利]相似问题的生成方法、装置、设备及存储介质有效
申请号: | 202110567582.1 | 申请日: | 2021-05-24 |
公开(公告)号: | CN113268564B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 蒙元 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F40/126;G06F18/214 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉;曹勇 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 相似 问题 生成 方法 装置 设备 存储 介质 | ||
1.一种相似问题的生成方法,其特征在于,所述方法包括:
获取目标标准问题文本;
将所述目标标准问题文本输入目标相似问题生成模型进行相似问题生成,得到待分析的相似问题集合;
根据所述目标标准问题文本进行未训练过字符查找,得到未训练过字符集合;
采用滑窗扫描方法,根据所述未训练过字符集合和所述目标标准问题文本,对所述待分析的相似问题集合进行未训练过字符填写,得到待优化的相似问题集合;
根据所述目标标准问题文本对所述待优化的相似问题集合进行优化处理,得到目标相似问题集合;
所述采用滑窗扫描方法,根据所述未训练过字符集合和所述目标标准问题文本,对所述待分析的相似问题集合进行未训练过字符填写,得到待优化的相似问题集合的步骤,包括:
从所述待分析的相似问题集合中获取一个待分析的相似问题作为目标待分析的相似问题;
从所述未训练过字符集合中提取一个未训练过字符,得到待填写的未训练过字符;
获取预设窗口宽度值,将所述预设窗口宽度值作为目标窗口宽度值;
根据所述目标标准问题文本、所述待填写的未训练过字符、所述滑窗扫描方法和所述目标窗口宽度值,对所述目标待分析的相似问题进行未训练过字符填写,得到未训练过字符填写结果;
当所述未训练过字符填写结果为失败时,获取预设间隔字符数,将所述目标窗口宽度值与所述预设间隔字符数进行相加,得到调整后的窗口宽度值,将所述调整后的窗口宽度值作为所述目标窗口宽度值,重复执行所述根据所述目标标准问题文本、所述待填写的未训练过字符、所述滑窗扫描方法和所述目标窗口宽度值,对所述目标待分析的相似问题进行未训练过字符填写,得到未训练过字符填写结果的步骤,直至所述未训练过字符填写结果为成功或者所述目标窗口宽度值与所述目标待分析的相似问题的字符数量相同;
当所述未训练过字符填写结果为成功时,根据所述待填写的未训练过字符、所述未训练过字符填写结果和所述目标待分析的相似问题,确定修改后的相似问题;
将所述修改后的相似问题作为所述目标待分析的相似问题;重复执行所述从所述未训练过字符集合中提取一个未训练过字符,得到待填写的未训练过字符的步骤,直至完成所述未训练过字符集合中所述未训练过字符的提取,将所述目标待分析的相似问题作为待优化的相似问题;
重复执行所述从所述待分析的相似问题集合中获取一个待分析的相似问题作为目标待分析的相似问题的步骤,直至完成所述待分析的相似问题集合中所述待分析的相似问题的获取;
将所有所述待优化的相似问题作为所述待优化的相似问题集合;
所述根据所述目标标准问题文本、所述待填写的未训练过字符、所述滑窗扫描方法和所述目标窗口宽度值,对所述目标待分析的相似问题进行未训练过字符填写,得到未训练过字符填写结果的步骤,包括:
根据所述待填写的未训练过字符,从所述目标标准问题文本中进行词语提取,得到所述待填写的未训练过字符对应的原始问题词语;
获取未训练过字符标识字符,根据所述未训练过字符标识字符、所述目标窗口宽度值和所述滑窗扫描方法,对所述目标待分析的相似问题进行窗口文本提取,得到相似问题窗口文本集合;
分别对所述原始问题词语和所述相似问题窗口文本集合中每个相似问题窗口文本进行相同位置的字符个数统计,得到所述相似问题窗口文本集合中各个所述相似问题窗口文本各自对应的相同位置相同字符数;
当不存在所述相同位置相同字符数大于0时,确定所述未训练过字符填写结果为失败;
当存在所述相同位置相同字符数大于0时,确定所述未训练过字符填写结果为成功。
2.根据权利要求1所述的相似问题的生成方法,其特征在于,所述将所述目标标准问题文本输入目标相似问题生成模型进行相似问题生成,得到待分析的相似问题集合的步骤之前,还包括:
获取多个第一训练样本,所述多个第一训练样本中的每个第一训练样本包括:条款样本文本;
采用所述多个第一训练样本对初始模型进行训练,将训练结束的所述初始模型作为条款训练后的模型,其中,所述初始模型是基于GPT2预训练模型得到的模型;
获取多个第二训练样本,所述多个第二训练样本中的每个第二训练样本包括:标准问题样本文本、相似问题标定值集合;
采用所述多个第二训练样本对所述条款训练后的模型进行训练,将训练结束的所述条款训练后的模型作为所述目标相似问题生成模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110567582.1/1.html,转载请声明来源钻瓜专利网。