[发明专利]模型训练和词向量确定方法、装置、设备、介质和产品有效
| 申请号: | 202110277972.5 | 申请日: | 2021-03-15 |
| 公开(公告)号: | CN113011177B | 公开(公告)日: | 2023-09-29 |
| 发明(设计)人: | 马超;张敬帅;黄启帆;姚开春;王鹏;祝恒书 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/216;G06F40/30;G06N3/08 |
| 代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 赵林琳;辛鸣 |
| 地址: | 100094 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 模型 训练 向量 确定 方法 装置 设备 介质 产品 | ||
1.一种模型训练方法,包括:
获取与第一词集合对应的第一词向量集合,所述第一词集合来自第一语料,并且所述第一词集合中的词在语言学上不具有顺序关系;
针对所述第一词向量集合中的每个词向量,
基于词嵌入模型生成降低维度的词向量,
基于所述降低维度的词向量生成所述第一词向量集合中的其他词向量在所述第一词向量集合中的第一概率分布,以及
调整所述词嵌入模型的参数,使得使用经调整的所述词嵌入模型生成的所述第一概率分布与通过所述第一词向量集合中的词向量的数量确定的所述其他词向量的第二概率分布的差别尽可能小;
针对所述第一词集合中的每个词,在所述第一词集合所属于的词全集中确定对照词集合,所述对照词集合与所述第一词集合不具有相同的词;获取与所述对照词集合对应的对照词向量集合;
使用所述词嵌入模型生成所述对照词集合中的每个词向量在所述第一词向量集合中出现的概率;以及
调整所述参数,使得使用经调整的所述词嵌入模型生成的所述对照词集合中的每个词向量在所述第一词向量集合中出现的概率尽可能小。
2.根据权利要求1所述的方法,其中调整所述参数包括:
使用损失函数,针对所述第一概率分布和所述第二概率分布确定概率分布损失分数;以及
调整所述参数,使得针对使用经调整的所述词嵌入模型生成的所述第一概率分布和所述第二概率分布确定的所述概率分布损失分数尽可能小。
3.根据权利要求1所述的方法,其中所述对照词集合中的词的数量与所述第一词集合中的词的数量成预定比例。
4.根据权利要求1所述的方法,其中所述对照词集合为所述词全集中、除所述第一词集合中的词以外的所有词。
5.根据权利要求1所述的方法,其中确定所述对照词集合包括:
通过所述词在所述第一语料中的出现次数以及所述词全集中的每个词在所述第一语料中的出现次数,确定采样概率;以及
使用所述采样概率在所述词全集中、除所述第一词集合中的词以外的词中采样,以确定所述对照词集合。
6.根据权利要求1所述的方法,还包括:
获取与第二词集合对应的第二词向量集合,所述第二词集合来自第二语料,所述第二词集合中的词在语言学上不具有顺序关系,并且所述第二词集合与所述第一词集合相关联;
针对所述第二词向量集合中的每个词向量,使用所述词嵌入模型生成降低维度的词向量,并且使用所述降低维度的词向量生成所述第二词向量集合中的其他词向量在所述第二词向量集合中的第三概率分布;以及
调整所述词嵌入模型的参数,使得使用经调整的所述词嵌入模型生成的所述第三概率分布与通过所述第二词向量集合中的词向量的数量确定的所述其他词向量的第四概率分布的差别尽可能小。
7.根据权利要求1所述的方法,还包括:
获取与第二词集合对应的第二词向量集合,所述第二词集合来自第二语料,所述第二词集合中的词在语言学上不具有顺序关系,并且所述第二词集合与所述第一词集合相关联;
针对所述第一词集合和所述第二词向量集合的词向量并集中的每个词向量,使用所述词嵌入模型生成降低维度的词向量,并且使用所述降低维度的词向量生成所述词向量并集中的其他词向量在所述词向量并集中的第五概率分布;以及
调整所述词嵌入模型的参数,使得使用经调整的所述词嵌入模型生成的所述第五概率分布与通过所述词向量并集中的词向量的数量确定的所述其他词向量的第六概率分布的差别尽可能小。
8.根据权利要求1所述的方法,其中调整所述参数包括使用梯度下降方法调整所述参数。
9.根据权利要求1所述的方法,其中所述词为技能词。
10.一种词向量确定方法,包括使用根据权利要求1至9中的任一权利要求而被训练的词嵌入模型,针对词向量确定降低维度的词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110277972.5/1.html,转载请声明来源钻瓜专利网。





