[发明专利]一种数据处理方法、装置、设备及可读存储介质有效
| 申请号: | 202011040445.4 | 申请日: | 2020-09-28 |
| 公开(公告)号: | CN112115717B | 公开(公告)日: | 2022-03-15 |
| 发明(设计)人: | 罗俊杰;孙继超;陈曦 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F40/211 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据处理 方法 装置 设备 可读 存储 介质 | ||
1.一种数据处理方法,其特征在于,包括:
获取目标分词的至少两个语言域分别对应的表征语粒序列,获取所述至少两个语言域分别对应的语粒向量矩阵;每个语粒向量矩阵均与样本文本相关联;所述至少两个语言域中的每个语言域用于描述所述目标分词的特征,一个语言域对应的表征语粒序列由所述目标分词在该语言域中的表征语粒所组成;一个语言域对应的语粒向量矩阵是指由样本单词对应的语粒向量表示特征所构成的矩阵;所述样本单词对应的语粒向量表示特征,是指所述样本单词在该语言域中的表征语粒所对应的向量表示特征;所述样本文本包括所述样本单词;
根据每个语言域分别对应的表征语粒序列和语粒向量矩阵,确定所述目标分词在每个语言域下分别对应的语言域映射向量;一个语言域下对应的语言域映射向量是指所述目标分词在该语言域下的均值向量表示特征;
将所述目标分词在每个语言域下分别对应的语言域映射向量进行融合,生成所述目标分词的融合语言域映射向量;
获取与所述样本文本相关联的分词向量矩阵;所述样本文本包括由所述目标分词和标签分词所构成的句子文本;所述标签分词是指所述句子文本中的中心词,所述目标分词是指与所述标签分词具有关联关系的周围词;
在所述分词向量矩阵中获取所述标签分词对应的分词向量表示特征,根据所述目标分词在每个语言域下分别对应的语言域映射向量、所述融合语言域映射向量以及所述标签分词对应的分词向量表示特征,对所述语粒向量矩阵以及所述分词向量矩阵进行调整,得到用于进行语言处理任务的目标语粒向量矩阵以及目标分词向量矩阵。
2.根据权利要求1所述的方法,其特征在于,所述至少两个语言域包括语言域Ki;i为小于或等于所述至少两个语言域的数量的正整数;
所述获取目标分词的至少两个语言域分别对应的表征语粒序列,包括:
获取所述目标分词在所述语言域Ki下对应的初始表征语粒;
将所述初始表征语粒进行组合,得到扩展表征语粒;
对所述扩展表征语粒进行过滤,得到过滤表征语粒,将所述初始表征语粒与所述扩展表征语粒组成的表征语粒,确定为目标表征语粒;
将所述目标表征语粒组成的序列确定为所述目标分词在所述语言域Ki下对应的表征语粒序列。
3.根据权利要求1所述的方法,其特征在于,所述至少两个语言域包括语言域Ki,所述至少两个语言域分别对应的表征语粒序列包括所述语言域Ki对应的表征语粒序列Mi;所述至少两个语言域分别对应的语粒向量矩阵包括所述语言域Ki对应的语粒向量矩阵Ti;所述语粒向量矩阵Ti包括所述语言域Ki中的样本表征语粒对应的语粒向量表示特征;所述样本表征语粒与样本文本相关联,且所述样本表征语粒包括所述表征语粒序列Mi中的目标表征语粒;i为小于或等于所述至少两个语言域的数量的正整数;
所述根据每个语言域分别对应的表征语粒序列和语粒向量矩阵,确定所述目标分词在每个语言域下分别对应的语言域映射向量,包括:
获取所述语粒向量矩阵Ti中的语粒向量表示特征;
在所述语粒向量矩阵Ti中的语粒向量表示特征中,获取所述表征语粒序列Mi中的目标表征语粒对应的语粒向量表示特征;
获取所述表征语粒序列Mi中的目标表征语粒的表征语粒数量;
根据所述表征语粒序列Mi中的目标表征语粒对应的语粒向量表示特征以及所述表征语粒数量,确定所述目标分词在所述语言域Ki下对应的语言域映射向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011040445.4/1.html,转载请声明来源钻瓜专利网。





