[发明专利]数字转换方法及系统、文本处理方法及系统、设备和介质有效
申请号: | 202010855978.1 | 申请日: | 2020-08-24 |
公开(公告)号: | CN111931508B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 陈辰;江文斌;李健 | 申请(专利权)人: | 上海携旅信息技术有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/232 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 杨东明;张冉 |
地址: | 201803 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数字 转换 方法 系统 文本 处理 设备 介质 | ||
本发明公开了一种数字转换方法及系统、文本处理方法及系统、设备和介质,包括:S11、构建第一类关键词字典,当输入文本包含所述第一类关键词,则执行步骤S13;S12、构建第二类关键词字典、第三类关键词字典和第四类关键词字典,依据所述第二类关键词对所述输入文本的中文数字进行数字串直接转换,依据所述第三类关键词对所述输入文本的中文数字进行数值转换,依据所述第四类关键词对所述输入文本的表示时间的中文数字进行转换;S13、结束转换,输出目标文本。本发明转换后的文本包含阿拉伯数字,清晰且没有歧义,能够使人一眼抓住重点,提高文本处理效率,也便于机器进行抓取,进行后的续处理和使用。
技术领域
本发明涉及文本处理领域,特别涉及一种数字转换方法及系统、文本处理方法及系统、设备和介质。
背景技术
语音转录文本是通过语音识别系统对通话录音进行解码后得到,解码的结果由语音识别系统的字典决定。常规的语音转录文本与录音的发音一一对应,通常情况下不会将中文数字转换成阿拉伯数字。常规的语音转录文本不符合正常的阅读习惯。由于通话录音的内容是口语化与生活化的,利用现有的中文数字转换成阿拉伯数字的文本处理技术,对语音转录文本中的中文数字进行无差别地转换,会出现转换的数字重复、有歧义等情况,不利于后续的处理和使用。
发明内容
本发明要解决的技术问题是为了克服现有技术中语音转录文本不符合正常的阅读习惯,将语音转录文本的中文数字转换成阿拉伯数字后会出现数字重复、有歧义的缺陷,提供一种数字转换方法及系统、文本处理方法及系统、设备和介质。
本发明是通过下述技术方案来解决上述技术问题:
一种数字转换方法,包括:
S11、构建第一类关键词字典,当输入文本包含所述第一类关键词,则执行步骤S13;
S12、构建第二类关键词字典、第三类关键词字典和第四类关键词字典,依据所述第二类关键词对所述输入文本的中文数字进行数字串直接转换,依据所述第三类关键词对所述输入文本的中文数字进行数值转换,依据所述第四类关键词对所述输入文本的表示时间的中文数字进行转换。
S13、结束转换,输出目标文本。
较佳地,所述第一类关键词包括:
具有实际的意义的连续数字;
含有数字的地名;
含有数字的固定搭配;
只包含单个数字的日常用语。
较佳地,所述第四类关键词包括“时”、“分”、“点半”、“点钟”、“点多”,依据所述第四类关键词对表示时间的中文数字进行转换,包括:
将“点”、“时”转换为“:”,将“点半”转换为“:30”。
较佳地,在步骤S11之前,所述数字转换方法还包括:
S10、判断所述输入文本是否含有中文数字。
一种文本处理方法,包括:
S21、获取输入文本串中子句的数量,当所述子句的数量为1,利用上述各项任意组合的所述数字转换方法对所述输入文本串进行转换,并输出经过转换的目标文本串;当所述子句的数量大于1,执行步骤S22;
S22、对所述输入文本串的每个所述子句设立转换标志位;
S23、当所述子句包含所述第一类关键词,调整所述子句的转换标志位,当所述子句与前一子句有连接关系,则调整所述前一子句的转换标志位,并向前遍历;
S24、依据转换标志位,利用上述各项任意组合的所述数字转换方法对所述输入文本串的子句进行转换,并输出经过转换的目标文本串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海携旅信息技术有限公司,未经上海携旅信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010855978.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种方便筛选的人工智能用茶叶烘干装置
- 下一篇:一种新能源汽车电源保护装置