[发明专利]标点符号标注方法、装置、计算机设备和存储介质有效

专利信息
申请号: 202110828958.X 申请日: 2021-07-22
公开(公告)号: CN113449489B 公开(公告)日: 2023-08-08
发明(设计)人: 耿思晴;潘晟锋;文博;刘云峰 申请(专利权)人: 深圳追一科技有限公司
主分类号: G06F40/117 分类号: G06F40/117;G06F40/211;G06F16/35;G06N3/0464;G06N3/08
代理公司: 华进联合专利商标代理有限公司 44224 代理人: 黄晶晶
地址: 518057 广东省深圳市南山区粤海街道*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 标点符号 标注 方法 装置 计算机 设备 存储 介质
【说明书】:

本申请涉及一种标点符号标注方法、装置、计算机设备和存储介质。该方法包括:获取包括多组样本数据的训练数据集,每组样本数据中包括无标点的样本文本和对应的标点符号样本标签序列;根据各样本文本的文本长度,确定待训练的标点预测模型的卷积核数量和各卷积核的长度,对待训练的标点预测模型进行迭代训练,得到标点预测模型;标点预测模型中包括用于获取长距离的上下文信息的第一卷积核和用于获取短距离的上下文信息的第二卷积核;将无标点符号的待标注文本输入至标点预测模型中,输出对应于待标注文本的标点符号标签序列,并将待标注文本和标点符号标签序列整合,生成标注有标号符号的文本。采用本方法能为文本进行更为准确地预测标点符号。

技术领域

本申请涉及机器学习技术领域,特别是涉及一种标点符号标注方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的飞速发展,人们能够利用计算机实现很多自动化处理。在一些情况下,需要使用计算机自动地对没有标点符号的文本标注标点符号,比如,通过自动语音识别得到的文本通常是没有标注标点符号的,无标点符号会大大降低文本的可读性以及影响下游任务处理的准确性,所以,需要对自动语音识别得到的文本预测标点符号。

基于词汇特征训练机器学习模型进行标点符号预测是一种重要的方法。目前,基于词汇特征序列的机器学习模型在进行标点符号预测时,会按固定的单一长度提取上下文信息,比较局限,从而导致预测准确性较低。

发明内容

基于此,有必要针对上述技术问题,提供一种能够提高准确性的标点符号标注方法、装置、计算机设备和存储介质。

一种标点符号标注方法,所述方法包括:

获取训练数据集;所述训练数据集中包括多组样本数据,每组样本数据中包括无标点的样本文本和对应的标点符号样本标签序列;

分析所述训练数据集中的各样本文本的文本长度,并根据各所述样本文本的文本长度,确定卷积核数量和各卷积核的长度;

根据所述卷积核数量和各卷积核的长度,构建待训练的标点预测模型;

基于所述训练数据集对所述待训练的标点预测模型进行迭代训练,得到标点预测模型;所述标点预测模型中包括多个卷积核,所述多个卷积核中包括第一卷积核和第二卷积核;所述第一卷积核,用于获取长距离的上下文信息;所述第二卷积核用于获取短距离的上下文信息;

将无标点符号的待标注文本输入至所述标点预测模型中,输出对应于所述待标注文本的标点符号标签序列,并将所述待标注文本和所述标点符号标签序列整合,生成标注有标号符号的文本。

在其中一个实施例中,所述基于所述训练数据集对所述待训练的标点预测模型进行迭代训练,得到标点预测模型包括:

在每轮迭代中,将所述训练数据集中的所述样本文本输入至本轮待训练的标点预测模型中,输出对所述样本文本对应的标点符号预测标签序列;

根据所述标点符号预测标签序列与相应的标点符号样本标签序列之间的损失值,调整本轮待训练的标点预测模型的模型参数,直至满足迭代停止条件,得到训练完毕的标点预测模型。

在其中一个实施例中,所述将无标点符号的待标注文本输入至所述标点预测模型中,输出对应于所述待标注文本的标点符号标签序列包括:

将所述待标注文本输入至所述标点预测模型中,以通过所述标点预测模型中的多个卷积核对所述待标注文本序列进行卷积处理;

将各个所述卷积核进行卷积处理得到的特征向量拼接;所述特征向量中包括基于所述第一卷积核提取的全局特征向量和基于所述第二卷积核专注于关键字所提取的特征向量;

基于拼接后的向量进行标点预测,得到对应于所述待标注文本的标点符号标签序列。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳追一科技有限公司,未经深圳追一科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110828958.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top