[发明专利]应用标记语言的自然语言表达方法有效
| 申请号: | 01116829.3 | 申请日: | 2001-04-13 |
| 公开(公告)号: | CN1320903A | 公开(公告)日: | 2001-11-07 |
| 发明(设计)人: | 莱尔德·C·威廉斯;安东尼·德宗诺;马克·J·鲍尔;肯尼思·韦尔;贾里德·布卢斯泰因;吉姆·F·马丁;达里尔·海麦尔;克雷格·R·香博 | 申请(专利权)人: | 罗克韦尔电子商业公司 |
| 主分类号: | G10L19/00 | 分类号: | G10L19/00;G10L15/00 |
| 代理公司: | 永新专利商标代理有限公司 | 代理人: | 蹇炜 |
| 地址: | 美国伊*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 应用 标记 语言 自然 语言表达 方法 | ||
本发明的技术领域涉及人的语音,特别是涉及人的语音的编码方法。
人的语音的编码方法是公知的。一种方法是使用字母表中的字母,以文本信息的形式对人的语音进行编码。这类文本信息被编码并可使用反差墨载于纸上或其他各种介质上。例如,人的语音可首先以文本格式编码,然后转换成ASCII格式后作为二进制信息存储在计算机中。
文本信息的编码一般是较有效的处理。但是文本信息往往无法反映出语音的全部内容或意义。例如,句子“Get out of my way”可以解释为一种请求(请让一下路)或是一种威胁(滚开!)。当把该句子记录成文本信息时,阅读者在大多数情况下没有足够信息识别所传递的意义。
但是,如句子“Get out of my way”是直接听讲话人说出,听者或许能确定该句子所要表达的意义。例如,如该句子大声说出,其音量或许使该句子透露出威胁。相反,如该句子小声说出,其音量透露出对听者的请求。
遗憾的是,只有记录语音的频谱才能抓住词句的含义。但是,由于所需的带宽,对频谱的记录是难以实现的。由于语音的重要性,因此需要有一种方法来记录实质上是文本的语音,但又能抓住词句的含义。
本发明的目的是提供一种用于对口头语言编码的方法和设备。
本发明之方法包括下列步骤:识别口头语言的词句内容,测量所识别之词句内容的属性,对所识别和测量的词句内容编码。
以下结合附图和优选实施例说明本发明。
图1为本发明一实施例的语言编码系统的方框图;
图2为图1之系统的一处理器的方框图;以及
图3为图1之系统可使用的处理步骤的流程图。
图1为用于口头(即:自然)语言编码之系统10的概括的方框图。图3描述了图1之系统10可使用的处理步骤的流程图。在所示实施例中,语音由一麦克风12检测后,在一模拟/数字(A/D)转换器14中转换成数字采样100及在一中央处理器(CPU)18中处理。
在CPU18中进行的处理可以包括:词句内容的识别104,或者更准确地说是语音元素(例如音素、语素、单词、句子、语法上的词尾变化等)的识别,以及与所识别单词或语音元素的使用有关的词句属性的测量102。在本文中,识别词句内容(即:语音元素)是指识别可被理解的、以表示该语音元素的字符或字符序列(例如,包括字母及数字混编的文本序列)。此外,口头语言的属性指口头语言的可测量附带内容(例如音色、幅度等)。属性的测量还可包括测量与一语音元素的使用有关的任何特性,通过该语音元素可进一步确定该语音的意义(例如主频率、单词或音节速率、词尾变化、停顿、音量、功率、音调、背景噪声等)。
一旦完成识别,语音连同语音属性可被编码并存储在一存储器16中,也可把原始口头语言内容还原后传给当地或远处的听者。所识别的语音和语音属性可用任何格式编码以存储和/或传输,但在优选实施例中,用ASCII格式编码的所识别语音元素与用标记语言(mark-up language)格式编码的属性交织在一起。
另一方法是,所识别的语音和属性也可作为一复合文件的独立子文件存储或传输。以独立子文件存储时,可把一共同时基编码入该整个复合文件结构中,使得属性与所识别语音的对应元素匹配。
在所示实施例中,以后可从存储器16中检索出语音,并在当地或远处还原,采用所识别的语音元素和属性以真实地还原原始口头语言内容。此外,在还原过程中可改变语音的属性和词尾变化,以与表现要求匹配。
在所示实施例中,由一运行在CPU18中的语音识别(SR)应用程序24可以实现语音元素的识别。该SR应用程序可用来确定各单词,该应用程序24还可提供识别语音元素(即音素)的系统设定选项。
在识别单词时,CPU18可用来存储作为文本信息的各字词。当对特殊单词或句子无法进行单词识别时,使用国际语音字符表下的合适符号,其声音可作为语音表达式存储。无论何种情况,可在存储器16中存储所识别的词句内容的声音的一连续表达式。
在单词识别的同时还可采集语音属性。例如,一时钟30可被用于提供标记,该标记可被插入在所识别单词之间或插入停顿之中(例如,用于时间同步信息的SMPTE标识符)。可用一幅度计26测量语音元素的音量。
作为本发明另一个特征,采用提供一个或多个快速傅立叶变换(FFT)值的一FFT应用程序28可处理语音元素。由FFT应用程序28,可获得每一单词的频谱分布图。从该频谱分布图可获得每一单词或语音元素的主频率或频谱内容的分布图,作为语音属性。该主频率和各副谐波提供一可识别的谐波特征,该特征在任何还原语音段中可用来确定讲话者。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于罗克韦尔电子商业公司,未经罗克韦尔电子商业公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/01116829.3/2.html,转载请声明来源钻瓜专利网。





