[发明专利]一种文本纠正方法及装置有效
申请号: | 201811158046.0 | 申请日: | 2018-09-30 |
公开(公告)号: | CN109408813B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 贾亚伟 | 申请(专利权)人: | 北京金山安全软件有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06N3/08 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 李欣;马敬 |
地址: | 100123 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 纠正 方法 装置 | ||
1.一种文本纠正方法,其特征在于,所述方法包括:
获取输入的待纠正的当前文本;
将所述当前文本输入神经网络;其中所述神经网络包括编码层和解码层;
所述编码层,根据预先训练好的第一网络参数确定所述当前文本的语义向量和权重,并将所述语义向量和权重输入所述解码层;其中,所述权重包括所述当前文本的各个子文本的子权重,用于表示所述当前文本中各个子文本存在错误的可能性;
所述解码层,根据预先训练好的第二网络参数以及所述语义向量和权重,确定所述当前文本对应的纠正后文本,所述第一网络参数和所述第二网络参数为预先根据样本文本和对应的标准纠正后文本训练得到的;
获取解码层确定的所述当前文本对应的纠正后文本;
所述语义向量包括所述当前文本的各个子文本的子语义向量;所述根据预先训练好的第二网络参数以及所述语义向量和权重,确定所述当前文本对应的纠正后文本的步骤,包括:
采用以下方式确定当前文本对应的纠正后文本的第N个纠正子文本:
获取第N-1个纠正子文本;其中,所述N为正整数,当所述N大于1时,所述第N-1个纠正子文本为:根据第N-1个子语义向量和第N-1个子权重以及获取的第N-2个纠正子文本从预设的文本对象库中确定;所述文本对象库包括各个文本对象;
根据第N个子语义向量和第N个子权重以及所述第N-1个纠正子文本,从所述文本对象库中确定第N个纠正子文本。
2.根据权利要求1所述的方法,其特征在于,当所述N为1时,所述获取第N-1个纠正子文本的步骤,包括:
将预设文本作为第N-1个纠正子文本,或者将从预设文本库中选择的文本作为第N-1个纠正子文本。
3.根据权利要求1所述的方法,其特征在于,所述根据第N个子语义向量和第N个子权重以及所述第N-1个纠正子文本,从所述文本对象库中确定第N个纠正子文本的步骤,包括:
根据第N个子语义向量和第N个子权重以及第N-1个纠正子文本,确定所述文本对象库中各个文本对象的评分;
根据各个评分,从所述文本对象库的各个文本对象中确定第N个纠正子文本。
4.根据权利要求1所述的方法,其特征在于,采用以下训练方式得到所述神经网络:
获取平行语料;其中,所述平行语料包括样本文本和对应的标准纠正后文本;
将所述样本文本输入所述神经网络的编码层;
所述编码层,根据第一网络参数确定样本文本的样本语义向量和样本权重,并将所述样本语义向量和样本权重输入解码层;其中,所述样本权重用于表示所述样本文本中各个样本子文本存在错误的可能性;
所述解码层,根据第二网络参数以及所述样本语义向量和样本权重,确定样本文本对应的样本纠正后文本;
比较所述样本纠正后文本与所述标准纠正后文本之间的差异;
当所述差异大于预设阈值时,根据所述差异修改所述第一网络参数和所述第二网络参数,返回执行所述将所述样本文本输入所述神经网络的编码层的步骤;
当所述差异小于预设阈值时,确定所述神经网络训练完成。
5.根据权利要求1所述的方法,其特征在于,所述编码层采用双向金字塔形式的循环神经网络,和/或,所述解码层采用双向循环神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山安全软件有限公司,未经北京金山安全软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811158046.0/1.html,转载请声明来源钻瓜专利网。