[发明专利]一种语音转写文本的人名纠错方法、装置和计算机设备有效
| 申请号: | 202210446416.0 | 申请日: | 2022-04-26 |
| 公开(公告)号: | CN114818668B | 公开(公告)日: | 2023-09-15 |
| 发明(设计)人: | 陈玮;冯少辉;张建业 | 申请(专利权)人: | 北京中科智加科技有限公司 |
| 主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/295;G06N3/0442;G06N3/047;G06N3/0464;G06N3/08 |
| 代理公司: | 北京天达知识产权代理事务所有限公司 11386 | 代理人: | 庞许倩 |
| 地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 转写 文本 人名 纠错 方法 装置 计算机 设备 | ||
本发明涉及一种语音转写文本的人名纠错方法、装置和计算机设备,属于语音识别技术领域;解决了现有技术中人名纠错方法依赖于海量数据,且纠错准确性不高的问题;本发明的人名纠错方法包括:获取语音识别后的语音转写文本并进行错误标注;采用预训练的中文实体识别模型对错误标注后的所述语音转写文本进行错误人名实体检测;基于检测得到的错误人名实体类型采用相应的纠错方式得到纠正后的文本。本发明基于人名实体进行纠错,极大提高了人名纠错的准确性和纠错效果。
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音转写文本的人名纠错方法、装置和计算机设备。
背景技术
随着互联网、机器学习以及自然语言处理的发展,中文文本纠错技术已经被广泛运用于键盘输入法、文档编辑、搜索引擎以及语音识别等领域,文本纠错已经成为自然语言处理中常见且重要的任务之一。
早期的文本纠错算法多基于规则、N-Gram语言模型和统计机器翻译(StatisticalMachine Translation,SMT)。上述方法在一定程度可以实现文本纠错,但仍具有很大的局限性。其中,基于规则的方法是最早的实用自动审查方法,通过解析源语言句子,分析句子结构,将它们转换为目标语言。基于规则的方法需要构建海量的规则库,在不间断添加硬性规则的同时,规则之间会引发互相冲突的问题,大幅度降低纠错的准确性;基于N-Gram语言模型的方法没有办法兼顾远距离相依赖问题和数据稀疏问题,当语句中的成分间距超过N-Gram长度时,该算法就失去了纠正能力,当N-Gram长度足够长时,虽然能缓解远距离问题,但是会出现数据稀疏问题;统计机器翻译将文本纠错任务视做转换错误文本为正确文本的单语翻译任务,该方法需要海量的平行文本进行训练,系统会自动学习句子之间的统计相关性。但是统计方法需要相似的庞大训练数据,并且无法考虑上下文的语言环境,导致语言质量不高。
近年来,随着深度学习技术的快速发展,深度学习在图像处理、自然语言处理和强化学习等领域扮演着越来越重要的角色。深度学习的训练过程就是基于海量数据自动进行特征提取,不断拟合数据的过程,隶属于机器学习。深度学习模型因为是自动进行特征提取,所以对于数据处理或特征工程的要求较低。但是该方法需要海量的数据,并且十分依赖数据的质量。
现有技术中的人名纠错方法均不是直接对句子中的实体词语进行纠错,在模型训练时需要海量的数据,在语音转写的文本中,人名出现错误的概率很大,这为后续数据处理带来了不便,此问题急需解决。
发明内容
鉴于上述的分析,本发明旨在提供一种语音转写文本的人名纠错方法、装置和计算机设备;解决现有技术中人名纠错方法无法直接针对实体词语进行纠错,纠错准确性不高的问题。
本发明的目的主要是通过以下技术方案实现的:
一方面,本发明提供了一种语音转写文本的人名纠错方法,包括以下步骤:
获取语音识别后的语音转写文本并进行错误标注;
采用预训练的中文实体识别模型对错误标注后的所述语音转写文本进行错误人名实体检测;
基于检测得到的错误人名实体类型采用相应的纠错方式得到纠正后的文本;其中,当所述错误人名实体类型为拼写错误和缺失错误时,采用的纠错方式,包括:对检测得到的人名实体进行掩码,采用预训练的掩码预测模型预测掩码内容,输出相应的预测人名及对应的概率值;将预测得到的人名与预先构建的人名词表进行对比得到纠正后的人名。
进一步的,采用序列标注方法对所述语音转写文本进行错误标注,得到带有错误标签的语音转写文本;
所述对错误标注后的所述语音转写文本进行错误人名实体检测,包括:
采用中文实体识别模型对带有错误标签的语音转写文本进行人名实体检测,并标注人名实体标签;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科智加科技有限公司,未经北京中科智加科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210446416.0/2.html,转载请声明来源钻瓜专利网。





