[发明专利]文本纠错方法、装置、设备以及存储介质在审

申请号：	202110251825.0	申请日：	2021-03-08
公开（公告）号：	CN112926306A	公开（公告）日：	2021-06-08
发明（设计）人：	李浩;庞敏辉;赵志新;冯婧超	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06F40/232	分类号：	G06F40/232;G06K9/62
代理公司：	北京英赛嘉华知识产权代理有限责任公司 11204	代理人：	王达佐;马晓亚
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本纠错方法装置设备以及存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本纠错方法，包括：

接收目标文本；

利用预先训练的文本纠错模型，对所述目标文本进行纠错，得到纠错文本；

利用预先训练的分类模型，确定所述纠错文本的误纠概率；

响应于确定所述误纠概率小于预设阈值，输出所述纠错文本。

2.根据权利要求1所述的方法，其中，所述文本纠错模型通过以下步骤得到：

获取混淆文本集，所述混淆文本集包括多个正确文本以及对应的多个错误文本；

将所述错误文本作为输入，将与输入的错误文本对应的正确文本作为期望输出，训练得到所述文本纠错模型。

3.根据权利要求2所述的方法，其中，所述分类模型通过以下步骤得到：

将所述正确文本的标签设置为第一预设值，将所述错误文本的标签设置为第二预设值；

将所述混淆文本集中的文本作为输入，将输入文本的标签作为期望输出，训练得到所述分类模型。

4.根据权利要求2所述的方法，其中，所述获取混淆文本集，包括：

获取多个正确文本；

对所述正确文本进行分词，得到多个词语；

对所述多个词语进行替换，确定所述正确文本对应的错误文本，得到所述混淆文本集。

5.根据权利要求4所述的方法，其中，所述对所述多个词语进行替换，确定所述正确文本对应的错误文本，包括：

确定所述多个词语中的字数以及预设的字数与概率的对应关系，确定各词语的替换概率；

根据所述替换概率从各词语中确定出目标词语，对所述目标词语中的字进行替换，确定所述错误文本。

6.根据权利要求4或5所述的方法，其中，所述对所述多个词语进行替换，包括：

确定所述多个词语中各字的替换字；

利用所述替换字对所述多个词语进行替换。

7.根据权利要求6所述的方法，其中，所述确定所述多个词语中各字的替换字，包括：

将与所述多个词语中各字字音相近或字形相近的字作为替换字。

8.根据权利要求1所述的方法，其中，所述方法还包括：

响应于确定所述误纠概率大于或等于所述预设阈值，利用所述纠错文本以及所述目标文本再次训练所述文本纠错模型。

9.一种文本纠错装置，包括：

文本接收单元，被配置成接收目标文本；

文本纠错单元，被配置成利用预先训练的文本纠错模型，对所述目标文本进行纠错，得到纠错文本；

误纠判断单元，被配置成利用预先训练的分类模型，确定所述纠错文本的误纠概率；

文本输出单元，被配置成响应于确定所述误纠概率小于预设阈值，输出所述纠错文本。

10.根据权利要求9所述的装置，其中，所述装置还包括：

文本集获取单元，被配置成获取混淆文本集，所述混淆文本集包括多个正确文本以及对应的多个错误文本；

第一训练单元，被配置成将所述错误文本作为输入，将与输入的错误文本对应的正确文本作为期望输出，训练得到所述文本纠错模型。

11.根据权利要求10所述的装置，其中，所述装置还包括第二训练单元，被配置成通过以下步骤得到所述分类模型：

将所述正确文本的标签设置为第一预设值，将所述错误文本的标签设置为第二预设值；

将所述混淆文本集中的文本作为输入，将输入文本的标签作为期望输出，训练得到所述分类模型。

12.根据权利要求10所述的装置，其中，所述文本集获取单元进一步被配置成：

获取多个正确文本；

对所述正确文本进行分词，得到多个词语；

对所述多个词语进行替换，确定所述正确文本对应的错误文本，得到所述混淆文本集。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司，未经北京百度网讯科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110251825.0/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]文本纠错方法、装置、设备以及存储介质在审

专利文献下载