[发明专利]一种词向量训练方法及装置在审
| 申请号: | 201910309865.9 | 申请日: | 2019-04-17 |
| 公开(公告)号: | CN111859945A | 公开(公告)日: | 2020-10-30 |
| 发明(设计)人: | 徐佳宏;成学文;杜志平 | 申请(专利权)人: | 深圳市茁壮网络股份有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06N3/04 |
| 代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
| 地址: | 518004 广东省*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 向量 训练 方法 装置 | ||
1.一种词向量训练方法,其特征在于,基于word2vec算法建立的神经网络模型,包括:
获取待训练语料中的新增词语;
针对每个新增词语,建立对应该新增词语的叶子节点,并在二叉树中确定目标叶子节点;所述目标叶子节点的深度小于或等于二叉树的平均深度;
将所述目标叶子节点与对应该所述新增词语的叶子节点分别作为一个非叶子节点的两个叶子节点,该非叶子节点在当前二叉树中的位置与所述目标叶子节点在原二叉树中的位置相同;
修改所述新增词语所在二叉树分支上包括的每个叶子节点以及每个非叶子节点对应的词计数,直至完成对所有新增词语的操作,得到新的二叉树;
确定新的二叉树中新增加的叶子节点以及非叶子节点对应的网络模型参数的初始值,以及所述新增词语的词向量的初始值;
将所述待训练语料中词语的词向量输入到所述神经网络模型中,对所述新增词语进行增量训练,并修正局部的网络模型参数,得到所述神经网络模型输出的对应所述新增词语的词向量。
2.根据权利要求1所述的词向量训练方法,其特征在于,所述在二叉树中确定目标叶子节点包括:
获取二叉树的平均深度以及二叉树中各个叶子节点的深度;其中,以数组的形式存储该二叉树中所有叶子节点的深度;
遍历所述数组,直至确定出所述数组中深度小于或等于平均深度的深度;
将该小于或等于平均深度的深度对应的叶子节点确定为目标叶子节点。
3.根据权利要求1所述的词向量训练方法,其特征在于,所述将所述目标叶子节点与对应该所述新增词语的叶子节点分别作为一个非叶子节点的两个叶子节点,该非叶子节点在当前二叉树中的位置与所述目标叶子节点在原二叉树中的位置相同包括:
在所述目标叶子节点位置处建立非叶子节点,并建立左、右两个叶子节点分别作为该非叶子节点的子节点;
判断所述目标叶子节点对应的词计数是否大于或等于所述新增词语对应叶子节点的词计数;
若判断所述目标叶子节点对应的词计数大于或等于所述新增词语对应叶子节点的词计数,则将所述目标叶子节点作为右叶子节点,将所述新增词语对应的叶子节点作为左叶子节点。
4.根据权利要求1所述的词向量训练方法,其特征在于,所述确定新的二叉树中新增加的叶子节点以及非叶子节点对应的网络模型参数的初始值,以及所述新增词语的词向量的初始值包括:
生成随机数,将生成的随机数作为新的二叉树中新增加的叶子节点以及非叶子节点对应的网络模型参数的初始值;
从该待训练语料中以所述新增词语为中心,获取该新增词语上下文的2c个词语,并分别获取该2c个词语的词向量;c为正整数;
对该2c个词语的词向量的和取平均,计算得到该新增词语的初始值。
5.根据权利要求1-4任意一项所述的词向量训练方法,其特征在于,所述获取待训练语料中的新增词语包括:
对所述待训练语料进行分词处理,得到组成所述待训练语料的词语;
去除组成所述待训练语料的词语中的停用词,得到对应该待训练语料的词语;
判断词汇表中是否存在与对应该待训练语料的词语相匹配的词语;
若判断词汇表中不存在与对应该待训练语料的词语相匹配的词语,则确定该对应该待训练语料的词语为新增词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市茁壮网络股份有限公司,未经深圳市茁壮网络股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910309865.9/1.html,转载请声明来源钻瓜专利网。





