[发明专利]对文本自动添加标点符号的方法、系统、设备及介质有效
申请号: | 202110171377.3 | 申请日: | 2021-02-04 |
公开(公告)号: | CN112906348B | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 邱实;杨学锐 | 申请(专利权)人: | 云从科技集团股份有限公司 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F16/31;G06F16/33;G06N3/04;G06N3/08;G06F40/295 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 李铁 |
地址: | 511457 广东省广州市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 自动 添加 标点符号 方法 系统 设备 介质 | ||
1.一种对文本自动添加标点符号的方法,其特征在于,包括以下步骤:
识别一个或多个音频,获取对应的文本;
将所述文本转化为多个索引值序列,并将多个所述索引值序列输入至深度神经网络模型中,获取每个索引值序列的概率分布;
基于每个索引值序列的概率分布确定每个索引值序列中每个字对应的最大概率分布值,并将每个字对应的最大概率分布值作为该字后面要添加的标点符号的索引;
通过所述索引从预先确定的标点符号索引表中获取相应的标点符号,并自动添加到所述文本中,完成对所述文本的标点符号添加;若所述索引对应的是空白标签,则跳过当前字,不对当前字添加标点符号;
所述深度神经网络模型的训练过程包括:
获取由带标点符号的文本和具有含义的字词所组成的训练数据;
将所述训练数据输入至一个或多个深度神经网络中,使所述带标点符号的文本和具有含义的字词利用同一个或多个深度神经网络的网络结构进行训练;
根据所述带标点符号的文本的标签和所述具有含义的字词的标签计算所述一个或多个神经网络的交叉熵损失函数,并获取所述交叉熵损失函数的平均值;
基于所述交叉熵损失函数的平均值计算所述一个或多个深度神经网络的梯度以及更新所述一个或多个深度神经网络中的参数,训练生成所述深度神经网络模型。
2.根据权利要求1所述的对文本自动添加标点符号的方法,其特征在于,在生成所述深度神经网络模型后,还包括将来自于一个或多个场景中的带标点符号的文本和具有含义的字词作为训练数据进行迁移学习,生成适应所述一个或多个场景的深度神经网络模型。
3.根据权利要求1或2所述的对文本自动添加标点符号的方法,其特征在于,还包括:对带标点符号的文本和具有含义的字词进行预处理,将带有标点符号的文本处理成无标点的文本和有标点符号序列的标签文本;以及对具有含义的字词进行标注。
4.根据权利要求1所述的对文本自动添加标点符号的方法,其特征在于,还包括:对每个索引值序列中每个字对应的概率分布值配置权重,从而调整所述深度神经网络模型的激进度;
其中,利用某深度神经网络模型添加的标点符号越多,该深度神经网络模型的激进度越大;利用某深度神经网络模型添加的标点符号越少,该深度神经网络模型的激进度越小。
5.一种对文本自动添加标点符号的系统,其特征在于,包括有:
文本采集模块,用于识别一个或多个音频,获取对应的文本;
概率分布计算模块,用于将所述文本转化为多个索引值序列,并将多个所述索引值序列输入至深度神经网络模型中,获取每个索引值序列的概率分布;
标点符号索引模块,用于基于每个索引值序列的概率分布确定每个索引值序列中每个字对应的最大概率分布值,并将每个字对应的最大概率分布值作为该字后面要添加的标点符号的索引;
标点符号添加模块,用于通过所述索引从预先确定的标点符号索引表中获取相应的标点符号,并自动添加到所述文本中,完成对所述文本的标点符号添加;若所述索引对应的是空白标签,则跳过当前字,不对当前字添加标点符号;
所述深度神经网络模型的训练过程包括:
获取由带标点符号的文本和具有含义的字词所组成的训练数据;
将所述训练数据输入至一个或多个深度神经网络中,使所述带标点符号的文本和具有含义的字词利用同一个或多个深度神经网络的网络结构进行训练;
根据所述带标点符号的文本的标签和所述具有含义的字词的标签计算所述一个或多个神经网络的交叉熵损失函数,并获取所述交叉熵损失函数的平均值;
基于所述交叉熵损失函数的平均值计算所述一个或多个深度神经网络的梯度以及更新所述一个或多个深度神经网络中的参数,训练生成所述深度神经网络模型。
6.根据权利要求5所述的对文本自动添加标点符号的系统,其特征在于,还包括有迁移学习模块,用于在生成所述深度神经网络模型后,将来自于一个或多个场景中的带标点符号的文本和具有含义的字词作为训练数据进行迁移学习,生成适应所述一个或多个场景的深度神经网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云从科技集团股份有限公司,未经云从科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110171377.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种非契约客户流失预测方法及系统
- 下一篇:一种弹簧钢防脱碳的加热炉控制方法