[发明专利]搜索引擎的测试数据生成方法、装置及电子设备在审
| 申请号: | 202211637135.X | 申请日: | 2022-12-16 |
| 公开(公告)号: | CN116089271A | 公开(公告)日: | 2023-05-09 |
| 发明(设计)人: | 毛勤;张月 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F11/36 | 分类号: | G06F11/36 |
| 代理公司: | 北京市通商律师事务所 11951 | 代理人: | 姜莹丽 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 搜索引擎 测试数据 生成 方法 装置 电子设备 | ||
1.一种搜索引擎的测试数据生成方法,包括:
获取目标搜索语句;
对所述目标搜索语句进行扩写,得到扩写搜索语句,所述扩写搜索语句的语句结构与所述目标搜索语句的语句结构满足预设的相似条件;
基于所述扩写搜索语句构建待测试搜索引擎的测试数据。
2.根据权利要求1所述的方法,其中,所述对所述目标搜索语句进行扩写,得到扩写搜索语句,包括:
从所述目标搜索语句中确定待替换实体词以及所述待替换实体词对应的第一属性词,所述第一属性词用于描述所述待替换实体词所表征的实体的属性;
响应于预设有与所述待替换实体词相关联的候选实体词,将所述目标搜索语句中的所述待替换实体词替换为所述候选实体词,并将所述第一属性词替换为第二属性词,得到扩写搜索语句,所述第二属性词为所述候选实体词对应的预设属性词。
3.根据权利要求2所述的方法,其中,所述从所述目标搜索语句中确定待替换实体词,包括:
确定所述目标搜索语句中包含的目标实体词,所述目标实体词用于表征所述目标搜索语句的搜索意图;
基于所述目标实体词的类别,确定待替换实体词。
4.根据权利要求3所述的方法,其中,所述基于所述目标实体词的类别,确定待替换实体词,包括:
响应于所述目标实体词的类别为人员类别,确定所述目标搜索语句中包含的条件实体词,将所述条件实体词确定为待替换实体词,所述条件实体词为所述目标搜索语句中用于约束所述目标实体词的实体词;
响应于所述目标实体词的类别并非人员类别,将所述目标实体词确定为待替换实体词。
5.根据权利要求4所述的方法,其中,所述确定所述目标搜索语句中包含的条件实体词,包括:
响应于所述目标搜索语句中存在目标指定字符串,基于预设的指定字符串与条件实体词的对应关系,确定所述目标指定字符串对应的条件实体词。
6.根据权利要求3-5中任一项所述的方法,其中,所述确定所述目标搜索语句中包含的目标实体词,包括以下任一项:
基于预训练的目标实体词识别模型,确定所述目标搜索语句中包含的目标实体词;
将所述目标搜索语句中的最后一个实体词确定为目标实体词。
7.根据权利要求2-6中任一项所述的方法,其中,从所述目标搜索语句中确定待替换实体词以及所述待替换实体词对应的第一属性词,包括:
基于所述目标搜索语句中各词汇的依存关系,确定与所述待替换实体词存在依存关系的依存词;
将所述依存词中的目标依存词确定为所述待替换实体词对应的第一属性词,所述目标依存词所描述的信息属于指定信息类型。
8.根据权利要求1-7中任一项所述的方法,在基于所述扩写搜索语句构建待测试搜索引擎的测试数据之前,所述方法还包括:
对所述扩写搜索语句进行以下至少一项处理:
归一化处理;
去口语化处理;
基于预训练的改写模型进行的改写处理。
9.根据权利要求1-8中任一项所述的方法,在所述获取目标搜索语句之前,所述方法还包括:
获取初始搜索语句;
基于所述初始搜索语句中词汇的词性,和/或,所述初始搜索语句中词汇的词性依存关系,确定所述初始搜索语句中的次要部分;
将所述初始搜索语句中的次要部分剔除,得到所述目标搜索语句。
10.根据权利要求9所述的方法,其中,所述次要部分包括以下至少一项:
时间状语;
地点状语;
存在介宾关系的词汇;
存在介宾关系的词汇之后相邻的副词;
存在动宾关系的词汇中的动词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211637135.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:变流器软启动电路及变流器
- 下一篇:一种中药自动化生产线的掀盖结构





