[发明专利]数据处理方法、装置、电子设备和存储介质在审
| 申请号: | 201911338463.8 | 申请日: | 2019-12-23 |
| 公开(公告)号: | CN111161737A | 公开(公告)日: | 2020-05-15 |
| 发明(设计)人: | 郝杰 | 申请(专利权)人: | 北京欧珀通信有限公司 |
| 主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/16;G10L15/30;G06F40/58 |
| 代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 刘晖铭;张颖玲 |
| 地址: | 100080 北京市海淀区海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据处理 方法 装置 电子设备 存储 介质 | ||
本发明公开了一种数据处理方法、装置、电子设备和存储介质。其中,方法包括:获取待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;基于第一预设策略,确定所述识别文本中的至少一个待注释词;基于第二预设策略,确定所述至少一个待注释词中每个待注释词对应的注释文本,得到至少一个注释文本;针对所述至少一个待注释词中的每个待注释词,在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本,得到更新后的识别文本;更新后的识别文本用于在播放所述语音数据时进行呈现。
技术领域
本发明涉及同声传译技术,具体涉及一种数据处理方法、装置、电子设备和存储介质。
背景技术
机器同传翻译系统是指利用自动语音识别(ASR,Automatic SpeechRecognition)技术对同传会议的演讲者的演讲内容进行自动识别,将演讲内容从语音数据转换为文本数据;再利用机器翻译(MT,Machine Translation)技术对文本数据进行翻译,将演讲内容转换为目标语言文本,并将翻译的结果展示给用户。随着自动语音识别技术与机器翻译技术的显著发展,机器同传翻译系统已达到实用阶段,且与人工同传的差距越来越小。
然而,相关机器同传翻译系统中,展示给用户的数据不能辅助用户更好地理解演讲者的演讲内容。
发明内容
为解决相关技术问题,本发明实施例提供一种数据处理方法、装置、电子设备和存储介质。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种数据处理方法,包括:
获取待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;
基于第一预设策略,确定所述识别文本中的至少一个待注释词;
基于第二预设策略,确定所述至少一个待注释词中每个待注释词对应的注释文本,得到至少一个注释文本;
针对所述至少一个待注释词中的每个待注释词,在获得的识别文本中与相应待注释词相关的位置设置添加所述相应待注释词对应的注释文本,得到更新后的识别文本;更新后的识别文本用于在播放所述语音数据时进行呈现。
上述方案中,所述基于第一预设策略,确定所述识别文本中的至少一个待注释词,包括:
对所述识别文本进行语义分析,得到所述识别文本的语境;
基于所述识别文本的语境,结合预设算法模型,确定所述识别文本中的至少一个待注释词。
上述方案中,所述基于第二预设策略,确定所述至少一个待注释词中每个待注释词对应的注释文本,包括:
针对所述至少一个待注释词中的每个待注释词,基于第一信息库,确定相应待注释词对应的注释文本;所述第一信息库存储有至少一个词语以及所述词语对应的注释信息。
上述方案中,所述基于第一信息库,确定相应待注释词对应的注释文本,包括:
针对所述至少一个词语中的每个词语,确定相应词语与所述相应待注释词的语义匹配度;并确定所述相应词语对应的注释信息与所述识别文本的语境匹配度;
将所述语义匹配度和所述语境匹配度满足预设条件的所述相应词语对应的注释信息确定为所述相应待注释词对应的注释文本。
上述方案中,将所述语义匹配度和所述语境匹配度满足预设条件的所述相应词语对应的注释信息确定为所述相应待注释词对应的注释文本,包括以下之一:
将所述语义匹配度大于或等于第一阈值,且所述语境匹配度大于或等于第二阈值的所述相应词语对应的注释信息确定为所述相应待注释词对应的注释文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京欧珀通信有限公司,未经北京欧珀通信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911338463.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种利用外形轮廓测量的方法
- 下一篇:一种磨砂手套生产用清洁装置





