[发明专利]一种基于多元语义特征和掩码策略的文本纠错方法和系统在审
申请号: | 202111457771.X | 申请日: | 2021-12-02 |
公开(公告)号: | CN114912418A | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 郭磊;边延风;褚国庆;邵亚红;余明;杨荣繁 | 申请(专利权)人: | 天翼数字生活科技有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/232;G06F40/242;G06F40/30;G06N3/08 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 蔡悦;亓云 |
地址: | 200072 上海市静安*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多元 语义 特征 掩码 策略 文本 纠错 方法 系统 | ||
1.一种用于语音转写文本纠错的方法,其特征在于,所述方法包括:
将待纠错的语音转写文本作为输入,利用预先构建的混淆词典来确定所述语音转写文本中的备选错误位置;
利用经训练的基于多元语义特征提取的自编码器中的编码器来对所述语音转写文本进行编码以得到连续的特征向量;
将所得到的特征向量输入经训练的基于掩码策略的错误检测模型以得到针对所确定的备选错误位置中的每个备选错误位置的错误发生置信度;以及
对于每个备选错误位置,响应于该备选错误位置的错误发生置信度高于预定义的阈值,利用所述混淆词典来对该备选错误位置的文本进行纠错,以输出经纠错的语音转写文本。
2.如权利要求1所述的方法,其特征在于,所述混淆词典是通过搜集历史分析数据以及通用的易错字、同音词、近音词和同形字来预先构建的,其中在所述混淆词典中将所搜集的错误字词记录为错误词组-纠正词组。
3.如权利要求1所述的方法,其特征在于,利用预先构建的混淆词典来确定所述语音转写文本中的备选错误位置进一步包括:
利用前向最大匹配算法来在所述语音转写文本中对所述混淆词典中的字词进行标记以检索出在所述混淆词典中收集的可能出现错误,从而确定所述语音转写文本中的备选错误位置。
4.如权利要求1所述的方法,其特征在于,利用经训练的基于多元语义特征提取的自编码器中的编码器来对所述语音转写文本进行编码以得到连续的特征向量进一步包括:
对所述语音转写文本进行多元语义特征提取以得到离散语义特征,其中所述多元语义特征提取包括中文拼音特征提取、中文词性特征提取和文本字词位置特征提取;以及
将所得到的离散语义特征映射到低维的连续特征空间中以得到连续的特征向量。
5.如权利要求1所述的方法,其特征在于,所述自编码器和所述错误检测模型是基于以下操作利用多任务学习来训练得到的,其中训练数据集包括经人工标注的语音转写文本,其中在所述语音转写文本中标注所确定的备选错误位置中真实存在错误和无错误发生的部分:
将所述训练数据集中的每个训练样本输入所述自编码器以提取离散语义特征进行编码;
将所述训练数据集中的每个训练样本输入所述错误检测模型以基于掩码策略来将所述备选错误位置使用掩码进行遮盖,并且利用上下文来预测掩码位置的实际字符;以及
计算并且累加所述自编码器的损失和所述错误检测模型的损失,进行所述自编码器和所述错误检测模型的参数更新。
6.一种用于语音转写文本纠错的系统,所述系统包括:
备选错误确定模块,所述备选错误确定模块被配置成将待纠错的语音转写文本作为输入,利用预先构建的混淆词典来确定所述语音转写文本中的备选错误位置;
语义特征编码模块,所述语义特征编码模块被配置成利用经训练的基于多元语义特征提取的自编码器中的编码器来对所述语音转写文本进行编码以得到连续的特征向量;
转写错误检测模块,所述转写错误检测模块被配置成将所得到的特征向量输入经训练的基于掩码策略的错误检测模型以得到针对所确定的备选错误位置中的每个备选错误位置的错误发生置信度;以及
转写错误纠正模块,所述转写错误纠正模块被配置成对于每个备选错误位置,响应于该备选错误位置的错误发生置信度高于预定义的阈值,利用所述混淆词典来对该备选错误位置的文本进行纠错,以输出经纠错的语音转写文本。
7.如权利要求6所述的系统,其特征在于,所述混淆词典是通过搜集历史分析数据以及通用的易错字、同音词、近音词和同形字来预先构建的,其中在所述混淆词典中将所搜集的错误字词记录为错误词组-纠正词组。
8.如权利要求6所述的系统,其特征在于,所述语义特征编码模块被进一步配置成:
对所述语音转写文本进行多元语义特征提取以得到离散语义特征,其中所述多元语义特征提取包括中文拼音特征提取、中文词性特征提取和文本字词位置特征提取;以及
将所得到的离散语义特征映射到低维的连续特征空间中以得到连续的特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天翼数字生活科技有限公司,未经天翼数字生活科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111457771.X/1.html,转载请声明来源钻瓜专利网。