[发明专利]创建语言模型和假名-汉字转换的方法和设备有效
申请号: | 200680022858.1 | 申请日: | 2006-06-23 |
公开(公告)号: | CN101208689A | 公开(公告)日: | 2008-06-25 |
发明(设计)人: | M·瑞;Y·佐藤;M·关 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/20;G06F17/21;G10L15/00 |
代理公司: | 上海专利商标事务所有限公司 | 代理人: | 张政权 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 创建 语言 模型 假名 汉字 转换 方法 设备 | ||
发明领域
本发明涉及一种创建语言模型的方法、假名-汉字转换的方法、及其设备,尤其涉及一种创建由文本表面信息定义的群集(cluster)的语言模型创建方法、假名-汉字转换的方法、及其设备、和计算机可读存储介质。
相关领域描述
传统的假名-汉字转换系统被认为是一种使用词类(parts-of-speech)表的系统。词类表指示词类B接在词类A后出现的概率。换言之,词类表主要指示词类和词的分组的二元语法。在下文中,这样的群集词类和词的分组称为群集二元语法。注意到,词类是一种就通过词法(词的形式)、语法功能(主语或副词)和语义信息(专有名词或名词)的结合的词分组而言的词行为的抽象。
另一方面,在语音识别领域发展起来的三元语法语言模型尝试应用于假名-汉字转换系统,并且这种系统已部分实现。该三元语法语言模型使用了一个词在前面某两个词之后出现的概率(三元语法)。例如,词w3在两个词w1和w2之后出现的概率表示为p(w3|w1w2)。
这种三元语法是在词的层面上而不是在词组的层面上获取语言现象。因此,它在获取现象上更加有效率。注意到,三元语法语言模型仅通过使用表面信息而非任何深层语义或语法抽象来获取人类语言中词的行为。
语言模型技术因其分析层面而比传统技术有更高的准确率。
然而,它有如下所述的缺点。传统语言模型引擎在三元语法或二元语法不具有足够可靠的概率时回退到一元语法。即,如果p(w3|w1w2)是不可靠的,则采用p(w3|w2)。然后,如果p(w3|w2)也是不可靠的,则采用p(w3)。例如,如果由于三元语法和二元语法为零而回退到一元语法,则w2的出现概率p可写作:
P(w3)=p(w3|w1w2)
=p(w3|w2)如果p(w3|w1w2)太小而不可靠
=p(w3)如果p(w3|w2)太小而不可靠
然而,向一元语法的常规回退可能引起严重的错误,因为一元语法仅表示一个词的出现而并不考虑任何上下文信息。
另一方面,传统的假名-汉字转换系统使用如上所述的词类群集二元语法。它始终使用上下文信息(即在前词的词类或者在后词的词类)。
因此,在某些最坏情况下,常规语言模型引擎从使用上下文信息的传统假名-汉字转换引擎降级。这是制约用户将传统系统升级到三元语法假名-汉字转换系统的原因之一。
另一方面,传统的使用词类对词所进行分组存在另一个缺点。确切词类可能需要人类语义知识。例如,词“Akita”可能是一个地名或者人名,但是只有人才能确定。
同样,在传统假名-汉字转换系统中使用词类进行的常规词分组并不适于统计计算。
发明概述
本发明提供了能够防止由向一元语法的回退引起的质量退化的一种创建语言模型的方法、假名-汉字转换方法、及其设备、和计算机可读介质。
本发明也提供了使用适于统计计算的词类对词进行分组的一种创建语言模式的方法、假名-汉字转换方法、及其设备、和计算机可读介质。
根据本发明的一个方面,提供了使用具有与存储设备中的显示、读音和词类相关联的词的计算机来创建语言模型的方法,存储设备由计算机处理单元执行的该方法包括以下步骤:从存储设备中获取具有相同显示和读音的词类;通过组合所获取的词类来创建群集;以及将所创建的群集存储到存储设备中。
该方法可以还包括步骤:输入拆分群集的指令;根据输入指令拆分存储在存储设备中的群集。
该方法可以还包括步骤:输入字符串;通过向包含在输入字符串中的每个词赋予词类来获取文本语料库(text corpus);组合存储在存储设备中的两个群集;计算在文本语料库中组合群集的出现概率;以及将组合群集与指示所计算的概率的群集二元语法相关联并且将具有群集二元语法的组合群集存储到存储设备中。
根据本发明的另一方面,提供了由计算机实现的假名-汉字转换方法,该计算机具有指示N个词的组合的出现概率的N元语法和指示两个词类群集的组合的出现概率的群集二元语法,其中群集中的至少一个包括至少两个词类,该方法包括以下步骤:输入字符串的读音;拆分所输入的读音;将所拆分的读音转换成假名或汉字以生成所转换字符串的候选;获取指示包含在所转换字符串的候选中的N个词的组合的出现概率的N元语法;获取指示包含在所转换字符串的候选中的两个群集的组合的出现概率的群集二元语法;以及,根据所获得的N元语法和群集二元语法来确定所转换字符串的候选的次序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680022858.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种整体复合绝热保温墙的施工工艺
- 下一篇:一种可调试液压工装