[发明专利]一种断句方法及装置在审

专利信息
申请号: 201811320543.6 申请日: 2018-11-07
公开(公告)号: CN111160003A 公开(公告)日: 2020-05-15
发明(设计)人: 李晓普;王阳阳 申请(专利权)人: 北京猎户星空科技有限公司
主分类号: G06F40/211 分类号: G06F40/211;G10L15/22
代理公司: 北京同达信恒知识产权代理有限公司 11291 代理人: 黄志华
地址: 100025 北京市朝*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 断句 方法 装置
【说明书】:

本申请公开一种断句方法及装置,属于自然语言处理技术领域,该方法包括:在缓存的字符序列中,从起始位置开始截取出第一长度的字符序列,其中,缓存的字符序列是对采集到的语音信号进行语音识别后得到的;将本次截取的字符序列输入到预先训练的断句模型中进行断句;若断句后的字符序列中包含断句标识,输出断句标识之前的字符,将断句标识之后的字符与下次从缓存中截取出的第二长度的字符序列拼接后,作为断句模型的下次输入,这样,断句标识后的字符还可参与下一次断句处理,不会丢弃任何一个字符,并且,每次输出的均是断句处理后的语义完整的句子,易于阅读和理解,因此,用户体验较好。

技术领域

本申请涉及自然语言处理技术领域,尤其涉及一种断句方法及装置。

背景技术

近年来,随着语音识别技术的快速发展,语音识别的应用领域也越来越多,如发语音消息,同声传译等。

一般地,在发语音消息时,用户说的话都比较短、且语义完整,所以不需要进行断句处理,而在同声传译中,可能需要实时地向用户展示发言者的讲话内容,目前在对发言者的语音数据进行识别得到字符序列以后,只是实时地向用户展示这些字符,并未对字符序列进行断句处理,这样,向用户展示的可能会是断续的语义不完整的句子,非常不易于阅读和理解,因此,用户体验也比较差。

发明内容

本申请实施例提供一种断句方法及装置,用以解决现有技术中在进行语音识别后,向用户展示的句子不完整、不易于阅读和理解,用户体验差的问题。

第一方面,本申请实施例提供的一种断句方法,包括:

在缓存的字符序列中,从起始位置开始截取出第一长度的字符序列,其中,缓存的字符序列是对采集到的语音信号进行语音识别后得到的;

将本次截取的字符序列输入到预先训练的断句模型中进行断句;

若断句后的字符序列中包含断句标识,输出断句标识之前的字符,将断句标识之后的字符与下次从缓存中截取出的第二长度的字符序列拼接后,作为断句模型的下次输入。

采用上述方案,对缓存中利用语音识别技术得到的字符序列,每次从起始位置开始截取出第一长度的字符序列,之后,将本次截取的字符序列输入到断句模型中进行断句处理,若确定断句后的字符序列中包含断句标识,则输出断句标识之前的字符,并将断句标识之后的字符与下次从缓存中截取出的第二长度的字符序列进行拼接,作为断句模型的下次输入,这样,断句标识后的字符还可参与下一次断句处理,不会丢弃任何一个字符,并且,每次输出的均是断句处理后的语义完整的句子,易于阅读和理解,因此,用户体验比较好。

在具体实施时,若想要使每次截取的字符序列的长度相同,则可设置第二长度与第一长度相同;若想要使每次输入到断句模型中的字符序列的长度相同,则可设置第二长度与断句标识之后的字符的长度之和为第一长度。

在一种可能的实施方式下,断句后的字符序列中可能会存在至少两个断句标识,此时,可按照这至少两个断句标识的排列顺序,逐次输出每个断句标识之前的字符;或者,将最后一个断句标识之前的所有字符作为一个句子输出,且所输出的句子中包含断句标识。

在一种可能的实施方式下,断句后的字符序列中不包含断句标识,此时,可将本次截取的字符序列与下次从缓存中截取出的第三长度的字符序列拼接后,作为所述断句模型的下次输入。

在一种可能的实施方式下,第三长度与第一长度相同。

在一种可能的实施方式下,将本次截取的字符序列与下次从缓存中截取出的第三长度的字符序列拼接后,作为断句模型的下次输入之后,还可将第一长度与第三长度之和作为更新后的第一长度,并基于更新后的第一长度进行下次断句处理。

在一种可能的实施方式下,根据以下步骤训练断句模型:

对获取的每个语料句子进行分词处理,确定该语料句子包含的词语;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京猎户星空科技有限公司,未经北京猎户星空科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811320543.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top