[发明专利]歧义消除语言模型无效

专利信息
申请号: 02106530.6 申请日: 2002-01-29
公开(公告)号: CN1369830A 公开(公告)日: 2002-09-18
发明(设计)人: 朱云正;F·A·阿列瓦 申请(专利权)人: 微软公司
主分类号: G06F17/22 分类号: G06F17/22
代理公司: 上海专利商标事务所 代理人: 钱慰民
地址: 美国华*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 歧义 消除 语言 模型
【说明书】:

发明背景

本发明涉及语言建模。更特别地,本发明涉及创建及使用一种用于使诸如输入语音的字符识别期间的歧义最小化的语言模型。

准确的语音识别不只需要一种声学模型来选择用户所说的正确的单词。换句话说,如果一个语音识别器必须选择或确定所发音的是哪一个单词,如果所有的单词都具有相同的发音,则该语音识别器将显然不能满意地执行。一种语言模型提供了一种指定词汇表中哪一个单词序列是可能的的方法或装置,或者通常,提供了有关各种单词序列相似性的信息。

语音识别经常被看作是一种自上至下的语言处理形式。语言处理的两种一般形式包括“自上至下”和“自下至上”。自上至下语言处理是以语言的最大单元开始来识别,例如一个句子,通过将其分类为比较小的单元来处理,例如词组,依次再分为更小的单元,例如单词。相反,自下至上语言处理是以单词开始,并从那里开始构造较大的词组和/或句子。语言处理的这两种形式都可以从语言模型中得到帮助。

一种公知的分类技术是使用一种N个字符列语言模型。因为N个字符列可以结交大量的数据,N个单词的相关性通常提供句法和语义的压制的浅部结构。尽管N个字符列语言模型对于一般的口授可以执行的很好,但是同音异义字会产生很大的错误。一个同音异义字是诸如字符或音节这样的语言代码的一个元素,也就是发音类似但具有不同拼写的两个或多个元素之一。例如,当一个用户正拼写字符时,由于一些字符发音相同语音识别模块会输出错误的字符。同样的,对于当发音的时候听起来互相类似的不同字符语音识别模块也会输出错误的字符(例如“m”和“n”)。

歧义问题在如日语或汉语等语言中尤其普遍,其主要是以汉字写入系统来书写。这些语言的字符是很多复杂的表示声音和意思的象形文字。这些字符形成了有限的音节,依次产生大量同音异义字,大大增加了通过口授生成文件所需的时间。特别是,在文件中必须识别错误的同音异义字字符并插入正确的同音异义字字符。

因此有一种持续的需求去开发新的方法,用于使在发同音异义字和具有不同意思的相似发音的语音时的歧义最小化。随着技术的发展,在更多的应用中都提供有语音识别,这就必须要得到一种更准确的语言模型。

发明概述

语音识别器通常使用一种如N个字符列语言模型的语言模型来提高准确性。本发明的第一个方面包括生成一种语言模型,其在一个讲话者正识别一个字符或多个字符(例如一个音节)例如当拼写一个单词时特别有用。该语言模型有助于同音异义字和听起来互相类似的不同字符的歧义消除。该语言模型由包含一个字符串(可以是单个字符)的相关元素、一个具有字符串的单词词组(可以是单个单词)和一个上下文标记的训练语料库构造。使用一个单词表或字典,通过为每一个包含单词词组、上下文标记和单词词组的一个字符串的单词词组形成一个局部的句子或词组可以自动生成训练语料库。在另一个实施例中,为单词词组的每一个单词符生成一个词组。

本发明的另一个方面是一种使用上述用于识别所说的字符的语言模型的系统或模块。当说一个字符串时结合相关的单词词组中的上下文标记,语音识别模块确定用户正在拼写或识别字符的方式。该语音识别模块将只输出被识别的字符,而不输出上下文标记或相关的单词词组。在又一个实施例中,语音识别模块比较被识别的字符和一个被识别的单词词组以验证已被识别的正确的字符。如果被识别的字符不在被识别的单词词组中,则输出的字符是被识别单词词组的一个字符。

附图的简要说明

附图1是一个语言处理系统的方框图。

附图2是一个典型的计算环境的方框图。

附图3是一个典型的语音识别系统的方框图。

附图4是本发明的一种方法的流程图。

附图5是用于实现附图4的方法的模块框图。

附图6是一种语音识别模块和一种可选的字符验证模块的方框图。

说明性实施例的详细描述

附图1示出了一种语言处理系统10,其接收一个语言输入12,并处理该语言输入12以提供一个语言输出14。例如,该语言处理系统10可以被具体化为一种接收由用户所说或所记录的语言的语言输入12的语音识别系统或模块。语言处理系统10处理所说的语言并提供以文字输出形式的识别单词和/或字符作为一个输出。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/02106530.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top