[发明专利]一种数据处理方法、装置和电子设备在审

专利信息
申请号: 201911136852.2 申请日: 2019-11-19
公开(公告)号: CN112825247A 公开(公告)日: 2021-05-21
发明(设计)人: 黄海兵;邱晓杰 申请(专利权)人: 北京搜狗科技发展有限公司
主分类号: G10L15/06 分类号: G10L15/06;G10L15/30;G10L19/04;G10L25/12
代理公司: 北京润泽恒知识产权代理有限公司 11319 代理人: 郑傲日
地址: 100084 北京市海淀区中关*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据处理 方法 装置 电子设备
【说明书】:

发明实施例提供了一种数据处理方法、装置和电子设备,其中,所述方法包括:获取训练数据;判断所述训练数据是否具有训练共享语言模型的训练价值;若所述训练数据具有训练价值,则通过所述训练数据训练所述共享语言模型更新所述共享语言模型的模型参数,并将更新的模型参数上传至服务器;从而减少终端设备计算量,以及终端设备与服务器之间的数据传输量,达到降低资源消耗的效果。

技术领域

本发明涉及数据处理技术领域,特别是涉及一种数据处理方法、装置和电子设备。

背景技术

随着计算机技术的发展,诸如手机、平板电脑等电子设备越来越普及,给人们的生活、学习、工作带来了极大的便利。这些电子设备通常安装有输入法应用程序(简称输入法),使得用户可使用该输入法进行信息输入。

其中,为了提高用户的输入效率,输入法通常采用语言模型预测候选,供用户直接输入。传统的训练语言模型方法是,将训练数据集中于某一台机器或是单个数据中心里(也可以称为云端),然后采用集中的训练数据对语言模型进行训练;其中,这里所说的训练数据一般都是通过跟用户签署协议,将用户数据汇集得到的。但随着用户隐私问题越来越得到重视,这种训练数据收集方法收到了限制;因此提出了一种联邦学习的方法:将“模型训练”与“云端存储”二者解绑,即在终端设备上采用用户数据进行训练模型,只将模型更新的参数上传至云端,从而为解决了用户隐私数据问题。

然而,随着用户设备数量以及每个用户设备中用户数据的不断扩大,联邦学习中本地训练计算量,以及需要上传的模型参数的数量也会随之不断增多;从而增加资源消耗。

发明内容

本发明实施例提供一种数据处理方法,以降低资源消耗。

相应的,本发明实施例还提供了一种数据处理装置和一种电子设备,用以保证上述方法的实现及应用。

为了解决上述问题,本发明实施例公开了一种数据处理方法,具体包括:获取训练数据;判断所述训练数据是否具有训练共享语言模型的训练价值;若所述训练数据具有训练价值,则通过所述训练数据训练所述共享语言模型更新所述共享语言模型的模型参数,并将更新的模型参数上传至服务器。

可选地,所述训练数据包括训练文本和参考结果;所述判断所述训练数据是否具有训练共享语言模型的训练价值,包括:将所述训练文本输入至所述共享语言模型中进行前向计算,得到预测结果;依据所述预测结果和所述参考结果,判断所述训练数据是否具有训练共享语言模型的训练价值。

可选地,所述预测结果包括预测文本和对应的预测概率;所述依据所述预测结果和所述参考结果,判断所述训练数据是否具有训练共享语言模型的训练价值,包括:判断预测概率最大的预测文本与参考样本是否匹配;若预测概率最大的预测文本与参考文本不匹配,则确定所述训练数据具有训练共享语言模型的训练价值。

可选地,所述参考结果还包括参考文本对应的参考概率,所述通过所述训练数据训练所述共享语言模型更新所述共享语言模型的模型参数,包括:确定与参考文本匹配的预测文本的预测概率,以及所述匹配的预测文本的预测概率与参考文本对应参考概率的误差;依据所述误差对所述共享语言模型进行反向学习,更新所述共享语言模型的模型参数。

可选地,所述的方法还包括:若所述训练数据不具有训练价值,则舍弃所述训练数据。

可选地,所述的方法还包括:获取模型参数更新后的共享语言模型,所述共享语言模型的模型参数由服务器根据各终端设备上传的模型参数进行更新。

可选地,所述训练数据包括与用户输入相关的信息。

本发明实施例还公开了一种数据处理装置,具体包括:训练数据获取模块,用于获取训练数据;判断模块,用于判断所述训练数据是否具有训练共享语言模型的训练价值;更新模块,用于若所述训练数据具有训练价值,则通过所述训练数据训练所述共享语言模型更新所述共享语言模型的模型参数,并将更新的模型参数上传至服务器。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911136852.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top