[发明专利]对文本自动添加标点符号的方法、系统、设备及介质有效

专利信息
申请号: 202110171377.3 申请日: 2021-02-04
公开(公告)号: CN112906348B 公开(公告)日: 2022-04-26
发明(设计)人: 邱实;杨学锐 申请(专利权)人: 云从科技集团股份有限公司
主分类号: G06F40/117 分类号: G06F40/117;G06F16/31;G06F16/33;G06N3/04;G06N3/08;G06F40/295
代理公司: 上海光华专利事务所(普通合伙) 31219 代理人: 李铁
地址: 511457 广东省广州市南*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 自动 添加 标点符号 方法 系统 设备 介质
【权利要求书】:

1.一种对文本自动添加标点符号的方法,其特征在于,包括以下步骤:

识别一个或多个音频,获取对应的文本;

将所述文本转化为多个索引值序列,并将多个所述索引值序列输入至深度神经网络模型中,获取每个索引值序列的概率分布;

基于每个索引值序列的概率分布确定每个索引值序列中每个字对应的最大概率分布值,并将每个字对应的最大概率分布值作为该字后面要添加的标点符号的索引;

通过所述索引从预先确定的标点符号索引表中获取相应的标点符号,并自动添加到所述文本中,完成对所述文本的标点符号添加;若所述索引对应的是空白标签,则跳过当前字,不对当前字添加标点符号;

所述深度神经网络模型的训练过程包括:

获取由带标点符号的文本和具有含义的字词所组成的训练数据;

将所述训练数据输入至一个或多个深度神经网络中,使所述带标点符号的文本和具有含义的字词利用同一个或多个深度神经网络的网络结构进行训练;

根据所述带标点符号的文本的标签和所述具有含义的字词的标签计算所述一个或多个神经网络的交叉熵损失函数,并获取所述交叉熵损失函数的平均值;

基于所述交叉熵损失函数的平均值计算所述一个或多个深度神经网络的梯度以及更新所述一个或多个深度神经网络中的参数,训练生成所述深度神经网络模型。

2.根据权利要求1所述的对文本自动添加标点符号的方法,其特征在于,在生成所述深度神经网络模型后,还包括将来自于一个或多个场景中的带标点符号的文本和具有含义的字词作为训练数据进行迁移学习,生成适应所述一个或多个场景的深度神经网络模型。

3.根据权利要求1或2所述的对文本自动添加标点符号的方法,其特征在于,还包括:对带标点符号的文本和具有含义的字词进行预处理,将带有标点符号的文本处理成无标点的文本和有标点符号序列的标签文本;以及对具有含义的字词进行标注。

4.根据权利要求1所述的对文本自动添加标点符号的方法,其特征在于,还包括:对每个索引值序列中每个字对应的概率分布值配置权重,从而调整所述深度神经网络模型的激进度;

其中,利用某深度神经网络模型添加的标点符号越多,该深度神经网络模型的激进度越大;利用某深度神经网络模型添加的标点符号越少,该深度神经网络模型的激进度越小。

5.一种对文本自动添加标点符号的系统,其特征在于,包括有:

文本采集模块,用于识别一个或多个音频,获取对应的文本;

概率分布计算模块,用于将所述文本转化为多个索引值序列,并将多个所述索引值序列输入至深度神经网络模型中,获取每个索引值序列的概率分布;

标点符号索引模块,用于基于每个索引值序列的概率分布确定每个索引值序列中每个字对应的最大概率分布值,并将每个字对应的最大概率分布值作为该字后面要添加的标点符号的索引;

标点符号添加模块,用于通过所述索引从预先确定的标点符号索引表中获取相应的标点符号,并自动添加到所述文本中,完成对所述文本的标点符号添加;若所述索引对应的是空白标签,则跳过当前字,不对当前字添加标点符号;

所述深度神经网络模型的训练过程包括:

获取由带标点符号的文本和具有含义的字词所组成的训练数据;

将所述训练数据输入至一个或多个深度神经网络中,使所述带标点符号的文本和具有含义的字词利用同一个或多个深度神经网络的网络结构进行训练;

根据所述带标点符号的文本的标签和所述具有含义的字词的标签计算所述一个或多个神经网络的交叉熵损失函数,并获取所述交叉熵损失函数的平均值;

基于所述交叉熵损失函数的平均值计算所述一个或多个深度神经网络的梯度以及更新所述一个或多个深度神经网络中的参数,训练生成所述深度神经网络模型。

6.根据权利要求5所述的对文本自动添加标点符号的系统,其特征在于,还包括有迁移学习模块,用于在生成所述深度神经网络模型后,将来自于一个或多个场景中的带标点符号的文本和具有含义的字词作为训练数据进行迁移学习,生成适应所述一个或多个场景的深度神经网络模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云从科技集团股份有限公司,未经云从科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110171377.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top