[发明专利]多国语言语音辨识及翻译方法与相关的系统在审
| 申请号: | 202110980746.3 | 申请日: | 2021-08-25 | 
| 公开(公告)号: | CN114239610A | 公开(公告)日: | 2022-03-25 | 
| 发明(设计)人: | 吴岳桐;李竣颖 | 申请(专利权)人: | 和硕联合科技股份有限公司 | 
| 主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/49;G06V20/40;G06V40/70;G10L15/00;G10L15/04;G10L15/26 | 
| 代理公司: | 隆天知识产权代理有限公司 72003 | 代理人: | 黄艳 | 
| 地址: | 中国台*** | 国省代码: | 台湾;71 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 国语 言语 辨识 翻译 方法 相关 系统 | ||
1.一种用于会议中的多国语言语音辨识与翻译的方法,该会议包含至少一参与人,其特征在于,该方法包含:
于一服务器端接收至少一终端装置于该会议中撷取的该至少一参与人的至少一音频数据与至少一视频数据;
辨识该至少一视频数据,以产生一第一影像辨识结果以及一第二影像辨识结果,该第一影像辨识结果包含该至少一参与人的数目及该至少一参与人的种族,以及该第二影像辨识结果包含该至少一参与人于说话时的肢体动作及脸部动作;
基于该第一影像辨识结果以及该至少一音频数据,产生至少一语系辨识结果;
基于该第一影像辨识结果及该第二影像辨识结果,切割该至少一音频数据,从而产生对应该至少一参与人的多个音频区段;
根据该至少一语系辨识结果,语音辨识所述音频区段,将所述音频区段转换成一文字内容;
根据该至少一语系辨识结果,翻译该文字内容;以及
传送已翻译的该文字内容使其显示于该至少一终端装置。
2.如权利要求1所述的方法,其特征在于,还包含:
从该至少一音频数据中撷取出语音特征数据;以及
根据该撷取出的语音特征数据与一语系辨识模型进行比对,产生一初步判断结果。
3.如权利要求2所述的方法,其特征在于,基于该第一影像辨识结果以及该音频数据产生该至少一语系辨识结果的步骤包含:
根据该初步判断结果以及该第一影像辨识结果,判断该至少一音频数据中包含的至少一语系,若该初步判断结果以及该第一影像辨识结果不符时,依据该初步判断结果判断。
4.如权利要求1所述的方法,其特征在于,切割该至少一音频数据,从而产生对应该至少一参与人的所述音频区段的步骤包含:
根据该第二影像辨识结果中该至少一参与人于说话时的脸部动作,决定该至少一参与人每次发言的一时间起始点以及一时间结束点,从而得到所述音频区段。
5.如权利要求1所述的方法,其特征在于,还包含:
根据该视频数据,对该至少一参与人进行身份辨识;
当身份辨识成功时,从一云端数据库服务模块中存取该至少一参与人相关的一个人专属用字词库,以及根据该个人专用字词库,提高与改善该至少一参与人的语音辨识结果与翻译结果;以及
当身份辨识失败时,为该至少一参与人建立一新个人专属用字词库。
6.如权利要求5所述的方法,另包含:
根据该至少一参与人的一使用者反馈,修改该个人专属用字词库。
7.如权利要求1所述的方法,其特征在于,还包含:
根据该至少一视频数据中该至少一参与人与一麦克风的距离,判断至少一发语者的数量以及各该发语者发言的时间,以产生该第二影像辨识结果;以及
根据该第二影像辨识结果,从而得到该多个音频区段。
8.如权利要求1所述的方法,其特征在于,还包含:
根据一参考字词库,校正该文字内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于和硕联合科技股份有限公司,未经和硕联合科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110980746.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:自动配车系统以及自动配车方法
 - 下一篇:触控显示装置及其感测方法
 





