[发明专利]语义识别模型的训练方法、装置、电子设备及存储介质在审
| 申请号: | 202210626170.5 | 申请日: | 2022-06-02 |
| 公开(公告)号: | CN114997166A | 公开(公告)日: | 2022-09-02 |
| 发明(设计)人: | 昝文;江小天;肖垚;陈达遥;陈胜 | 申请(专利权)人: | 北京三快在线科技有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06K9/62 |
| 代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 谢冬寒 |
| 地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语义 识别 模型 训练 方法 装置 电子设备 存储 介质 | ||
1.一种语义识别模型的训练方法,其特征在于,所述方法包括:
获取样本搜索词和第一样本业务信息;
基于所述第一样本业务信息的多个字段分别对应的字段类型,确定所述第一样本业务信息的多个字段分别对应的掩盖方式,所述多个字段是基于语义信息对所述第一样本业务信息进行划分得到的,一个字段对应一种掩盖方式;
基于所述第一样本业务信息的多个字段分别对应的掩盖方式,对所述第一样本业务信息的多个字段中的词分别进行掩盖,得到第二样本业务信息;
基于所述样本搜索词和所述第二样本业务信息,进行模型训练,得到语义识别模型。
2.根据权利要求1所述的方法,其特征在于,基于所述字段对应的掩盖方式,对所述字段中的词进行掩盖的过程,包括:
若所述字段的掩盖方式为交替掩盖方式,且基于第一概率确定当前对所述字段中的词采用词级别掩盖方式,从所述字段中选取第一目标词,对所述第一目标词进行词级别掩盖,所述第一概率用于表示对所述字段中的词进行词级别掩盖的概率,所述交替掩盖方式用于表示交替采用字级别掩盖方式和词级别掩盖方式对所述字段中的词进行掩盖;
若所述字段的掩盖方式为交替掩盖方式,且基于第二概率确定当前对所述字段中的词采用字级别掩盖方式,从所述字段中选取第二目标词,对所述第二目标词进行字级别掩盖,所述第二概率用于表示对所述字段中的词进行字级别掩盖的概率。
3.根据权利要求2所述的方法,其特征在于,所述从所述字段中选取第一目标词,对所述第一目标词进行词级别掩盖,包括:
确定所述字段包括的词组的第一数量;
从所述第一数量的词组中选取第一预设比例的词组作为所述第一目标词,对所述第一目标词进行掩盖。
4.根据权利要求3所述的方法,其特征在于,所述从所述第一数量的词组中选取第一预设比例的词组作为所述第一目标词,包括:
若所述第一预设比例的词组的数量不超过第一预设阈值,将所述第一预设比例的词组作为所述第一目标词;
若所述第一预设比例的词组的数量超过所述第一预设阈值,从所述第一预设比例的词组中选取所述第一预设阈值的词组作为所述第一目标词。
5.根据权利要求1所述的方法,其特征在于,基于所述字段对应的掩盖方式,对所述字段中的词进行掩盖的过程,包括:
若所述字段的掩盖方式为字级别掩盖方式,所述字段的字段类型为品类字段类型,且基于第三概率确定对所述字段中的词进行掩盖的预设比例为第二预设比例,从所述字段中选取第二预设比例的词,对所述第二预设比例的词进行字级别掩盖,所述第三概率用于表示对所述字段中第二预设比例的词进行掩盖的概率;
若所述字段的掩盖方式为字级别掩盖方式,所述字段的字段类型为品类字段类型,且基于第四概率确定所述预设比例为第三预设比例,从所述字段中选取第三预设比例的词,对所述第三预设比例的词进行字级别掩盖,所述第四概率用于表示对所述字段中第三预设比例的词进行掩盖的概率;
若所述字段的掩盖方式为字级别掩盖方式,所述字段的字段类型为品类字段类型,且基于第五概率确定所述预设比例为第四预设比例,从所述字段中选取第四预设比例的词,对所述第四预设比例的词进行字级别掩盖,所述第五概率用于表示对所述字段中第四预设比例的词进行掩盖的概率,所述第三概率大于所述第四概率,所述第四概率大于所述第五概率,所述第四预设比例大于所述第三预设比例,所述第三预设比例大于所述第二预设比例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210626170.5/1.html,转载请声明来源钻瓜专利网。





