[发明专利]特定领域的词向量增量方法、装置及存储介质有效
| 申请号: | 202010950721.4 | 申请日: | 2020-09-11 |
| 公开(公告)号: | CN111814473B | 公开(公告)日: | 2020-12-22 |
| 发明(设计)人: | 陈庆伟 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 袁文婷;张娓娓 |
| 地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 特定 领域 向量 增量 方法 装置 存储 介质 | ||
1.一种特定领域的词向量增量方法,应用于电子装置,其特征在于,所述方法包括:
收集特定领域的语料;
将所述特定领域的语料与所述特定领域的预设词向量对照表比对,得到所述特定领域的词向量空间;
根据预设词向量空间融合规则,将所述特定领域的词向量空间与预先获取的通用语料词向量空间进行融合处理,将得到的融合的词向量空间中的词向量作为所述特定领域增量后的词向量;其中,
根据预设词向量空间融合规则,将所述特定领域的词向量空间与预先获取的通用语料词向量空间进行融合处理包括:
获取所述特定领域的词向量空间与所述预先获取的通用语料词向量空间共同的词向量;
根据所述共同的词向量,训练映射网络模型;
通过所述映射网络模型,将所述预先获取的通用语料词向量空间与所述特定领域的词向量空间中不同的词向量融合,形成融合的词向量空间;
两个领域内非公共词汇需要通过映射网络模型进行融合;其中,
通过所述映射网络模型,将所述预先获取的通用语料词向量空间与所述特定领域的词向量空间中不同的词向量融合,形成融合的词向量空间包括:
所述特定领域的词向量空间A包括以下词向量【W_a1, W_a2, W_a3, W_a4, W_a5, W_a6, W_ab1, W_ab2】,所述通用语料词向量空间B括以下词向量【W_b1, W_b2, W_b3, W_ab1, W_ab2】;
通过f(Embedding_B(W_ab1)) - Embedding_A(W_ab1)训练出映射函数f(x);
将所述映射函数f(x)作为映射网络模型,并通过所述映射函数f(x)将所述通用语料词向量空间B内的词向量映射到所述特定领域的词向量空间A内,形成融合的词向量空间f(w_b)。
2.根据权利要求1所述的特定领域的词向量增量方法,其特征在于,所述预设词向量对照表存储于区块链中,在将所述特定领域的语料与所述特定领域的预设词向量对照表比对,得到所述特定领域的词向量空间之前,还包括:
对所述特定领域的语料样本进行分词处理,得到语料分词;
根据预设的分词划分规则,将所述语料分词分为聚焦分词、上文语境词和下文语境词;
分别通过CBOW模型和Skip-gram模型对所述聚焦分词、所述上文语境词和所述下文语境词进行词向量训练,得到特定领域词向量;
将所述特定领域词向量加载至预设表格中,得到所述特定领域的预设词向量对照表。
3.根据权利要求2所述的特定领域的词向量增量方法,其特征在于,通过所述CBOW模型对所述聚焦分词、所述上文语境词和所述下文语境词进行词向量训练包括:
将所述上文语境词的对应词向量和所述下文语境词的对应词向量输入所述CBOW模型的输入层,并将与所述上文语境词和所述下文语境词之间存在映射关系的聚焦词语作为所述CBOW模型的隐藏层;
通过激励函数计算出准确率最高的语料分词中的上文语境词的对应词向量和下文语境词的对应词向量并由所述CBOW模型的输出层输出。
4.根据权利要求3所述的特定领域的词向量增量方法,其特征在于,通过所述Skip-gram模型对所述聚焦分词、所述上文语境词和所述下文语境词进行词向量训练包括:
将所述聚焦词语的对应词向量输入所述Skip-gram模型的输入层,并将与所述聚焦词语之间存在映射关系的上文语境词和下文语境词作为所述CBOW模型的隐藏层;
通过激励函数计算出准确率最高的语料分词中的聚焦词语的对应词向量并由所述CBOW模型的输出层输出。
5.根据权利要求1所述的特定领域的词向量增量方法,其特征在于,将所述特定领域的语料与所述特定领域的预设词向量对照表比对,得到所述特定领域的词向量空间,包括:
将所述特定领域的语料进行分词处理,得到特定语料分词;
将所述特定语料分词与所述特定领域的预设词向量对照表比对,从所述特定领域的预设词向量对照表中,获取与所述特定语料分词相对应的特定领域词向量;
将所有的特定领域词向量组成特定领域的词向量空间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010950721.4/1.html,转载请声明来源钻瓜专利网。





