[发明专利]一种文本纠错方法、系统及电子设备在审

专利信息
申请号: 202011641951.9 申请日: 2020-12-31
公开(公告)号: CN112863516A 公开(公告)日: 2021-05-28
发明(设计)人: 简仁贤;佘昌宪;李佳纯 申请(专利权)人: 竹间智能科技(上海)有限公司
主分类号: G10L15/26 分类号: G10L15/26;G10L15/28
代理公司: 北京市盈科律师事务所 11344 代理人: 陈晨;王津
地址: 200233 上海市徐*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 纠错 方法 系统 电子设备
【说明书】:

发明公开了一种文本纠错方法、系统及电子设备,其中,文本纠错方法包括如下步骤:接收待纠错文本并获取待纠错文本拼音,从用户词库中获得用户词汇及用户词汇拼音;将待纠错文本拼音与各用户词汇拼音直接进行比对,根据预设算法,从用户词库中选取出纠错词;根据纠错词的选取路径,反推待纠错文本中的替换词,将替换词替换为纠错词,获得纠错后文本。本发明公开的纠错方法和系统不受限于实体词模型,可快速比对文本的每个位置,同时找出需要替换的位置。

技术领域

本发明涉及智能识别技术领域,尤其涉及一种自然语言处理技术。

背景技术

随着深度学习的普及,在计算机视觉、语音识别、自然语言处理等方面均取得重大突破。以语音识别为例,目前语音识别准确率已达到97%。以上技术的突破,使得语音识别的应用领域越来越广。由于相对于其他人机交互方式,语音交互更为符合人们的日常习惯,更为高效。可以预计,语音识别技术将广泛应用于智能家居、工业生产、通信、医疗、自动驾驶等各个领域。在实际语音交互过程中,由于用户发音不标准、噪音等各因素影响,语音识别错误率较高。而现有技术都集中在提升语音识别准确率上,却缺乏对识别结果的纠错手段。以上原因,极大影响语音交互产品推广。

现有技术中,为提升对识别结果的纠错情况,常通过预先训练的实体词模型找出语音识别文本的实体词,并和用户词库做拼音相似度比对。如现有技术一般包括如下步骤:对语音转化后的文本数据进行分析和预处理,获取样本数据集;利用样本数据训练实体识别模型;构建实体修正数据集;根据语音识别后的文本数据,利用实体识别模型进行预测及实体验证等。

上述类型的技术方案,存在如下缺陷:在对语音识别文本进行纠错前,需要预先标注与训练实体词模型,而不同类型的实体词可能需要额外训练,这导致运算时间及准确率大大的受限于实体词模型。

发明内容

为解决现有技术存在的问题,本发明提供了一种文本纠错方法、系统及电子设备。

第一方面,本发明提供了一种文本纠错方法,包括如下步骤:获取待纠错文本并识别待纠错文本拼音,从用户词库中提取用户词汇及用户词汇拼音;将待纠错文本拼音与各用户词汇拼音直接进行比对,根据预设算法,从用户词库中选取出纠错词;根据纠错词的选取路径,反推待纠错文本中的替换词,将替换词替换为纠错词,获得纠错后文本。

结合第一方面实施例,在一种可能的实施方式中,所述待纠错文本为语音识别文本。

结合第一方面实施例,在一种可能的实施方式中,所述预设算法包括发音分数算法,所述发音分数算法包括:计算待纠错文本拼音与每个用户词汇拼音之间所有任两个拼音的发音相似度分数,以最长公共子序列LCS算法对待纠错文本拼音与用户词汇拼音的发音相似度分数进行累加,得到每个用户词汇的累计发音分数,并记录发音分数的得分路径;用户词汇的累计发音分数除以该用户词汇的拼音个数,得到该用户词汇的发音分数,选取发音分数最高的用户词汇作为纠错词。

结合第一方面实施例,在一种可能的实施方式中,所述预设算法包括拼音分数算法和发音分数算法,所述拼音分数算法包括:计算待纠错文本拼音与每个用户词汇拼音的LCS,得到每个用户词汇的累计拼音分数,用户词汇的累计拼音分数除以该用户词汇的拼音个数,得到该用户词汇的拼音分数,筛选拼音分数排在前K位的用户词汇作为候选词,其中K小于等于用户词汇的总数量。所述发音算法包括:计算待纠错文本拼音与每个候选词拼音之间所有任两个拼音的发音相似度分数,以最长公共子序列LCS算法对待纠错文本拼音与候选词拼音的发音相似度分数进行累加,得到每个候选词的累计发音分数,并记录发音分数的得分路径;候选词的累计发音分数除以该候选词的拼音个数,得到该候选词的发音分数,选取发音分数最高的候选词作为纠错词。

结合第一方面实施例,在一种可能的实施方式中,若存在多个发音分数相同的候选词,则按照如下顺序挑选纠错词:拼音分数最高的候选词为纠错词;与待纠错文本相同字数最多的候选词为纠错词;与待纠错文本字数长度最接近的候选词为纠错词;随机选择候选词为纠错词。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于竹间智能科技(上海)有限公司,未经竹间智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011641951.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top