[发明专利]文本矫正方法及装置、电子设备及存储介质在审
申请号: | 202211645529.X | 申请日: | 2022-12-16 |
公开(公告)号: | CN116524502A | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 崔元顺;许彬;林辉;段亦涛 | 申请(专利权)人: | 网易有道信息技术(北京)有限公司 |
主分类号: | G06V30/12 | 分类号: | G06V30/12;G06F40/232 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 韩来兵 |
地址: | 100085 北京市海淀区西北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 矫正 方法 装置 电子设备 存储 介质 | ||
1.一种文本矫正方法,其特征在于,包括:
获取对目标对象进行扫描得到的扫描文本;
将所述扫描文本输入轻量化bert语言模型中,得到所述扫描文本的目标语言特征,其中,所述轻量化bert语言模型的参数量少于标准Bert模型的标准参数量;
按照所述目标语言特征对所述扫描文本进行第一矫正操作,得到第一矫正文本;
根据所述第一矫正文本,得到对所述扫描文本完成矫正后的第二矫正文本。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一矫正文本,得到对所述扫描文本完成矫正后的第二矫正文本,包括:
在所述第一矫正文本中的所有候选矫正对象中,确定出不满足预设矫正要求的错误矫正对象,其中,所述候选矫正对象为在所述第一矫正操作中,对所述扫描文本中的扫描对象进行替换、增加或删除的对象;
按照与每个候选矫正对象对应的所述扫描对象,将所述第一矫正文本中的所述错误矫正对象还原为所述错误矫正对象对应的所述扫描对象,得到所述第二矫正文本。
3.根据权利要求2所述的方法,其特征在于,所述在所述第一矫正文本中的所有候选矫正对象中,确定出不满足预设矫正要求的错误矫正对象,包括以下至少一项:
在所述候选矫正对象为所述第一矫正文本中增加的词的情况下,将所述候选矫正对象确定为所述错误矫正对象;
在所述候选矫正对象为对所述第一矫正文本中的任一个扫描词执行替换操作得到、且所述替换操作不满足预设替换要求的情况下,将所述候选矫正对象确定为所述错误矫正对象,其中,所述扫描对象包括扫描词;
在所述候选矫正对象为对所述第一矫正文本中的任一个扫描词进行词性修正后得到的情况下,将所述候选矫正对象确定为所述错误矫正对象;
在所述候选矫正对象为对所述第一矫正文本中的任一个扫描标点符号替换得到的情况下,将所述候选矫正对象确定为所述错误矫正对象,其中,所述扫描对象包括扫描标点符号。
4.根据权利要求1所述的方法,其特征在于,在所述将所述扫描文本输入轻量化bert语言模型中,得到所述扫描文本的目标语言特征之前,所述方法还包括:
按照用户上报的错误日志,得到的数据可以划分为第一训练用数据和第一验证用数据,其中,所述第一训练用数据和第一验证用数据均包括一一对应的第一错误对象以及第一正确对象;
按照所述一一对应的第一错误对象以及第一正确对象,得到错误特征规律;
根据所述错误特征规律,在目标数据库中确定出满足预设的文本扫描场景的语料数据集,其中,所述目标数据库中包括多个语料数据;
将所述语料数据集划分为第一语料数据子集以及第二语料数据子集;
利用所述第一语料数据子集以及所述错误特征规律,得到第二训练用数据,其中,所述第二训练用数据包括一一对应的第二错误对象以及第二正确对象。
5.根据权利要求4所述的方法,其特征在于,在所述根据所述错误特征规律,在目标数据库中确定出满足预设的文本扫描场景的语料数据集之后,所述方法还包括:
对标准bert模型进行剪裁,得到参数量满足预设参数量要求,且删除前向输出层的待训练轻量化bert模型;
通过所述第二语料数据子集对所述待训练轻量化bert模型进行训练,得到预训练轻量化bert模型,其中,所述第二语料数据子集包含的语料满足预设语料要求。
6.根据权利要求5所述的方法,其特征在于,在所述通过所述第二语料数据子集对所述待训练轻量化bert模型进行训练,得到预训练轻量化bert模型之后,所述方法还包括:
在所述预训练轻量化bert模型之后依次增加待训练错误检查模块以及待训练纠正模块,得到待训练模型,其中,错误检查模块用于按照文本输入预训练轻量化bert模型后得到的语言特征,确定出所述扫描文本中的错误对象,纠正模块用于按照所述语言特征,确定出用于对所述错误对象进行矫正的矫正对象;
通过所述第一训练用数据和第二训练用数据对所述待训练模型进行训练,得到训练后模型;
在通过所述第一验证用数据对所述训练后模型进行校验,且确定所述训练后模型满足预设精度的情况下,在所述训练后模型中确定出目标错误检查模块以及目标纠正模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易有道信息技术(北京)有限公司,未经网易有道信息技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211645529.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:场景数据生成方法及装置、电子设备和存储介质
- 下一篇:军用大数据管理系统