[发明专利]一种文本规整方法、装置、设备及可读存储介质有效

申请号：	201811220743.4	申请日：	2018-10-19
公开（公告）号：	CN109446508B	公开（公告）日：	2023-06-02
发明（设计）人：	戚婷;高建清;孔常青;王智国	申请（专利权）人：	科大讯飞股份有限公司
主分类号：	G06F40/189	分类号：	G06F40/189
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	王云晓;王宝筠
地址：	230088 安徽***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本规整方法装置设备可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种文本规整方法、装置、设备及可读存储介质，方法包括：获取待规整文本；将待规整文本的文本内容处理成多个文本单元，获得预处理文本，预处理文本中的一个文本单元为一个词或字；基于预处理文本中每个文本单元对应的规整类别信息，对待规整文本中的待规整文本单元进行规整，获得规整后的文本。本申请提供的文本规整方法可将与数字相关的汉字规整为阿拉伯数字或特殊符号，从而得到便于用户阅读和理解的文本数据，本申请提供的文本规整方法易于实现，且规整效果较好。

技术领域

本申请涉及语音识别技术领域，尤其涉及一种文本规整方法、装置、设备及可读存储介质。

背景技术

语音识别技术，指的是将音频识别为文本，在很多情况下，识别出的文本中会包含数字，这些数字通常都会以汉字来表示，比如一、二、三、四、五等，用汉字表示数字显得冗长繁琐，非常影响阅读，且不易快速掌握文本关键信息，比如，识别出的文本中包括“您的手机号为幺三九五六幺四三二六零，截止二零一八年六月二十日十八点三十二分，未出账话费为两百零四点一四元”，为了便于用户阅读，使用户能够快读掌握文本的关键信息，亟需一种能够合理地将文本中的数字相关汉字转换为阿拉伯数字或特殊符号的文本规整方案，以得到便于阅读和理解的文本数据。

发明内容

有鉴于此，本申请提供了一种文本规整方法、装置、设备及可读存储介质，用以将文本中数字相关的汉字转换为阿拉伯数字或特殊符号，从而得到便于用于阅读和理解的文本数据，其技术方案如下：

一种文本规整方法，包括：

获取待规整文本；

将所述待规整文本的文本内容处理成多个文本单元，获得预处理文本，其中，所述预处理文本中的一个文本单元为一个词或字；

基于所述预处理文本中每个文本单元对应的规整类别信息，对所述待规整文本中的待规整文本单元进行规整，获得规整后的文本。

优选地，所述将所述待规整文本的文本内容处理成多个文本单元，包括：

对所述待规整文本的文本内容进行分词，获得多个词；

将所述多个词中包含数字的词拆分为单字。

优选地，所述基于所述预处理文本中每个文本单元对应的规整类别信息，对所述待规整文本中的待规整文本单元进行规整，获得规整后的文本，包括：

获取所述预处理文本中每个文本单元对应的规整特征；

基于所述预处理文本中每个文本单元对应的规整特征，通过预先建立的两级规整模型中的第一级规整模型，确定所述每个文本单元对应的规整类别信息；