[发明专利]一种基于多元语义特征和掩码策略的文本纠错方法和系统在审

专利信息
申请号: 202111457771.X 申请日: 2021-12-02
公开(公告)号: CN114912418A 公开(公告)日: 2022-08-16
发明(设计)人: 郭磊;边延风;褚国庆;邵亚红;余明;杨荣繁 申请(专利权)人: 天翼数字生活科技有限公司
主分类号: G06F40/126 分类号: G06F40/126;G06F40/232;G06F40/242;G06F40/30;G06N3/08
代理公司: 上海专利商标事务所有限公司 31100 代理人: 蔡悦;亓云
地址: 200072 上海市静安*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 多元 语义 特征 掩码 策略 文本 纠错 方法 系统
【说明书】:

本申请提供了一种基于掩码策略和多元语义特征编码的文本纠错方法和系统,方法包括:将待纠错的语音转写文本作为输入,利用预先构建的混淆词典来确定该语音转写文本中的备选错误位置;利用经训练的基于多元语义特征提取的自编码器中的编码器来对该语音转写文本进行编码以得到连续的特征向量;将所得到的特征向量输入经训练的基于掩码策略的错误检测模型以得到针对所确定的备选错误位置中的每个备选错误位置的错误发生置信度;以及对于每个备选错误位置,响应于该备选错误位置的错误发生置信度高于预定义的阈值,利用该混淆词典来对该备选错误位置的文本进行纠错,以输出经纠错的语音转写文本。

技术领域

本申请涉及人工智能领域,更具体地,涉及一种基于多元语义特征和掩码策略的文本纠错方法。

背景技术

随着人工智能大数据技术的不断发展,中国电信大数据分析挖掘相关的业务日益增多,如今中国电信已经成为大数据人工智能技术的重要使用方。在电信实际业务中,已广泛使用人工智能等相关技术进行大数据的信息分析和数据挖掘。如今依托于电信广泛的通话呼叫业务来进行通话数据分析在营销等业务中都有着至关重要的意义。对通话记录数据的分析常常依赖于语音转写的文本记录,然而,由于语音转写局限性和通话设备噪音的干扰,转写的文本往往出现较多的错误,因此在这种情况下需要对文本进行纠错处理。

针对这个问题,传统的解决方式是通过混淆词典的方式,技术人员利用同音词、近音词以及同形字的多种易错词来构造纠错混淆词典,并且通过基于马尔可夫过程的n-gram语言模型来计算文本句子的困惑度以进行错误检测,将检测出的错误通过混淆词典纠正后,再判断困惑度是否降低,进而实现纠错的目标。该方法主要存在影响其文本纠错的正确率的以下两个问题:

(1)使用混淆词典对文本进行错误检测,需要串行化地对每一个字词进行检查,同时还依赖于分词工具的准确度,当分词工具在待检测文本上性能表现一般时,分词器本身会划分出错误的分词结果,从而影响语言模型和混淆词典的错误纠正结果,将原本正确的字词错误地进行修改。

(2)使用n-gram的语言模型进行错误检测,仅能考虑当前字符的前1-3个字,难以获得待检测文本的全局信息,而简单地扩展语言模型窗口大小,又会产生大量未登录词和低频词汇,平滑处理过后,依旧会导致推理过程中句子整体困惑度过大,影响对转写错误的判断。同时,语言模型难以显式地学习到其中的语法语义信息,这几方面的缺点都会导致在错误定位和校验中容易产生较大误差。

因此,为了在保证基于混淆词典纠错的高可解释性和业务灵活性的同时提升语音转写错误字符检测和纠正的性能,期望提供一种改进的语音转写文本纠错方法,以便在提高纠错准确率的同时加快单句文本的处理速度。

发明内容

提供本申请内容以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本申请内容并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。

针对上述现有技术中存在的不足,本申请提供了一种基于随机掩码并结合多元语义特征编码提高混淆词典文本纠错准确率的方法,在保证基于混淆词典纠错的高可解释性和业务灵活性的同时,利用随机掩码策略和多元语义特征编码提升语音转写错误字符检测和纠正的性能,在提高准确率的同时加快了单句文本的处理速度。本申请通过监督的方式训练一个高效的错误检测模型,智能识别可能出现的错误点并进行概率评估,其中对于转写的一个片段文本,仅需要一轮前向运算即可得到错误可能出现的位置。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天翼数字生活科技有限公司,未经天翼数字生活科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111457771.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top