[发明专利]通用翻译有效
| 申请号: | 201580084729.4 | 申请日: | 2015-09-23 |
| 公开(公告)号: | CN108351871B | 公开(公告)日: | 2019-09-27 |
| 发明(设计)人: | 黄飞 | 申请(专利权)人: | 脸谱公司 |
| 主分类号: | G06F17/28 | 分类号: | G06F17/28 |
| 代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 梁丽超;沈丹阳 |
| 地址: | 美国加*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 媒体项 语言 源语言 翻译 语言识别 获知 能源 加权 同源 词汇 输出 通用 | ||
能够通过基于诸如媒体项中的词汇和由媒体项作者获知的语言等固有或外在的因素尝试对媒体项进行初始语言识别而识别媒体项的可能源语言。该初始识别能够利用对应的可能性因素生成最可能源语言的列表。然后,能够执行假定最可能源语言中的每种的翻译。能够对多种输出语言执行翻译。产生的每个译本均能够接收基于多种因素的对应分数。能够对具有共同源语言的分数进行组合。这些组合的分数能够用于对媒体项的源语言的之前识别的可能性因素进行加权。
相关申请的交叉引用
本申请要求于2015年9月22日提交的美国专利申请号14/861/747的权益,通过引用将其全部内容结合在此。
技术领域
本公开涉及用于识别片段的最可能源语言的方法、计算机可读存储介质、以及系统。
背景技术
互联网使得人们可以以之前不曾想到的方式全球性地连接并且共享信息。例如,社交媒体平台使位于地球的相对侧的人们能够沟通理念、讨论当前事件、或共享他们的午餐。在过去,这种惊人的资源在某种程度上被限制于具有共同自然语言(“语言”)的用户之间的通信。此外,用户仅能够消费他们的语言之中的内容,或内容供应商能够基于系统设置或网络位置(例如,互联网协议(“IP”)地址或语言识别器)对其确定适当的译本的内容。
尽管世界各地使用的许多不同语言之间的通信具有特殊的挑战性,机器翻译服务已经尝试去解决此问题。这些服务提供了用户使用网络形式提供文本、选择一种或多种语言、并且以已选择的语言接收文本的译本的机制。尽管这些服务已经明显提高人们跨越语言障碍进行通信的能力,但其可以要求用户打开单独的网站、指出其想要的翻译语言、并且识别源文件的语言。然后,在该单独的网站中示出生成的译本,从由最初来源提供的上下文中移除该内容。在某些情况下,翻译器服务不能够锁定源页面的各部分以进行翻译或由于翻译产生的格式变化而提供源网站的不可读版本。在许多情况下,用户发现这个过程过于不便并且可能丧失耐性并导航至不同的网站或可能直接跳过其不理解的文本,从而错失接收内容的机会。
发明内容
本公开提出一种用于识别片段的最可能源语言的方法,该方法包括:接收片段的指示,其中,片段是词汇或字符组的数字表示;确定片段的两种以上可能源语言;通过一个或多个机器翻译引擎生成片段的两个以上译本,每个译本均具有指定的译本源语言,其中,生成片段的两个以上译本中的至少一个,将片段的两种以上可能源语言中的第一种设置为指定的译本源语言,并且其中,生成片段的两个以上译本中的至少另一个,将片段的两种以上可能源语言中的除片段的两种以上可能源语言中的第一种之外的第二种设置为指定的译本源语言;通过使用一个或多个神经网络训练的一个或多个译本打分模型计算片段的已生成的两个以上译本中的至少两个的准确度分数;生成片段的至少两种已确定的可能源语言中的每种的置信因数,其中,基于具有与已确定的可能源语言对应的源语言的经过计算的准确度分数中的一个或多个,生成每种已确定的可能源语言的置信因数;并且选择与最高置信因数相关联的片段的可能源语言作为最可能源语言。
本公开还提出一种非暂时性计算机可读存储介质,存储指令,当由计算系统运行指令时,使计算系统执行用于识别片段源语言的置信因数的操作。该操作包括:接收片段的指示,其中,片段是词汇或字符组的数字表示;接收片段的观看者的指示;确定与片段的观看者相关联的输出语言;通过一个或多个机器翻译引擎生成片段的两个以上译本,两个以上译本中的每个具有指定的译本源语言,并且两个以上译本中的每个为与和片段的观看者相关联的输出语言相匹配的输出语言;其中,生成片段的两个以上译本中的至少一个,将片段的两种以上可能源语言中的第一种设置为指定的译本源语言,并且其中,生成片段的两个以上译本中的至少另一个,将片段的两种以上可能源语言中的除片段的两种以上可能源语言中的第一种之外的第二种设置为指定的译本源语言;通过使用一个或多个神经网络训练的一个或多个译本打分模型计算片段的已生成的两个以上译本中的至少两个的准确度分数;并且产生片段的至少两种已确定的可能源语言中的每种的置信因数,其中,基于具有与已确定的可能源语言对应的源语言的经过计算的准确度分数中的一个或多个,产生每种已确定的可能源语言的置信因数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于脸谱公司,未经脸谱公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201580084729.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于计算机执行语言学分析的基于集解析
- 下一篇:用于响应用户语音的方法和系统





