[发明专利]对文本自动添加标点符号的方法、系统、设备及介质有效
申请号: | 202110171377.3 | 申请日: | 2021-02-04 |
公开(公告)号: | CN112906348B | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 邱实;杨学锐 | 申请(专利权)人: | 云从科技集团股份有限公司 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F16/31;G06F16/33;G06N3/04;G06N3/08;G06F40/295 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 李铁 |
地址: | 511457 广东省广州市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 自动 添加 标点符号 方法 系统 设备 介质 | ||
一种对文本自动添加标点符号的方法、系统、设备及介质,通过识别音频获取文本;将对应文本转化为多个索引值序列,并将这多个索引值序列输入至深度神经网络模型中,获取每个索引值序列的概率分布;基于每个索引值序列的概率分布确定该索引值序列中每个字对应的最大概率分布值,作为该字后面要添加的标点符号的索引;通过该索引从预先确定的标点符号索引表中获取相应的标点符号,并自动添加到文本序列中,完成对文本的标点符号添加;若索引对应的是空白标签,则跳过当前字,不对当前字添加标点符号。本发明可以实现自动标点符号、跨领域迁移学习和激进程度调整等功能,还可以改变深度神经网络模型的激进度,满足不同场景下对准确率和召回率的要求。
技术领域
本发明涉及语音识别技术领域,特别是涉及一种对文本自动添加标点符号的方法、系统设备及介质。
背景技术
语音识别可以将语音转写成相应的文本,但由于标点符号本身不具有发音,语音识别的转写结果往往是不含有标点符号的文本。通过额外的工具向转写结果中添加标点符号,可以增加转写结果的可读性。尤其在长音频的转写场景中,标点符号对于人类理解长文本的内容更为关键。通常的自动标点符号工具通过训练一个深度神经网络模型来实现。
然而,现有的自动标点符号工具往往存在以下几点缺陷:
1)独立的标点符号模型往往不是针对语音识别这一单一场景,因而在口语化文本上的效果欠佳;而专门为语音识别开发的标点符号模型大多与上游的语音识别模型绑定,难以解耦。
2)作为语音识别的下游任务,标点符号模型对于效果与性能都有较高的要求。如果过度追求效果,模型过大,会影响语音识别的整体实时率;一味追求速度的话,模型过小,又难以得到满意的结果。
3)不同应用场景下,标点符号的添加规则也不相同。许多专业术语,专有名词等需要结合领域才能区分出来,例如金融场景中各种基金产品的名称。一个模型难以满足不同领域的需求。
4)有些标点符号模型选择了较为激进的算法,添加标点符号少有遗漏,但错误较多;另一些模型策略较为保守,出错较少的同时也遗漏了较多的标点。如何在准确率和召回率之间取舍也成为了标点符号工具需要考虑的一个问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种对文本自动添加标点符号的方法、系统、设备及介质,用于解决现有技术中存在的技术问题。
为实现上述目的及其他相关目的,本发明提供一种对文本自动添加标点符号的方法,包括以下步骤:
识别一个或多个音频,获取对应的文本;
将所述文本转化为多个索引值序列,并将多个所述索引值序列输入至深度神经网络模型中,获取每个索引值序列的概率分布;
基于每个索引值序列的概率分布确定每个索引值序列中每个字对应的最大概率分布值,并将每个字对应的最大概率分布值作为该字后面要添加的标点符号的索引;
通过所述索引从预先确定的标点符号索引表中获取相应的标点符号,并自动添加到所述文本中,完成对所述文本的标点符号添加;若所述索引对应的是空白标签,则跳过当前字,不对当前字添加标点符号。
可选地,所述深度神经网络模型的训练过程包括:
获取由带标点符号的文本和具有含义的字词所组成的训练数据;
将所述训练数据输入至一个或多个深度神经网络中,使所述带标点符号的文本和具有含义的字词利用同一个或多个深度神经网络的网络结构进行训练;
根据所述带标点符号的文本的标签和所述具有含义的字词的标签计算所述一个或多个神经网络的交叉熵损失函数,并获取所述交叉熵损失函数的平均值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云从科技集团股份有限公司,未经云从科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110171377.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种非契约客户流失预测方法及系统
- 下一篇:一种弹簧钢防脱碳的加热炉控制方法