[发明专利]用于自然语言处理中的模糊匹配的语音模式在审
申请号: | 201880073075.9 | 申请日: | 2018-10-31 |
公开(公告)号: | CN111328416A | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | C·戳姆;J·小甘锡;S·富奥考;曾杰 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G10L15/187 | 分类号: | G10L15/187;G10L15/02;G06F40/284;G10L25/33 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 程晨 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 自然语言 处理 中的 模糊 匹配 语音 模式 | ||
从自然语言输入中提取标记。计算与所述标记相对应的语音模式,所述语音模式包括在所述标记被说出时表示所述标记的一部分的声音模式。从该语音模式的数据中创建新数据,该新数据包括对应于该语音模式的音节序列。通过将新数据存储在对应于该标记的音节序列矩阵中来改变数据存储设备的状态。通过使用处理器和存储器执行模糊匹配算法来选择与所述标记相对应的选项,所述选项的选择基于所述矩阵中的音节序列。
技术领域
本发明一般涉及自然语言处理(NLP),尤其涉及用于自然语言处理中的模糊匹配的语音模式的方法、系统和计算机程序产品。
背景技术
自然语言(NL)是脚本(书面)或发声(口头)语言,具有人用来主要与其他人或与具有自然语言接口的系统通信的形式。
自然语言处理(NLP)是一种便于在人和数据处理系统之间交换信息的技术。例如,NLP的一个分支涉及将人类可读或人类可理解的内容转换成机器可用数据。例如,NLP引擎目前可用于接收诸如报纸文章或人类讲话的输入内容,并从给定内容产生结构化数据,诸如输入内容的概要、最重要和最不重要的部分、主题、引用、内容内的依赖性等。
NL输入是使用自然语言的语法来构造并以合适的形式来呈现的输入,包括但不限于文本、音频及其形式,诸如从音频讲话的转录、来自文本的机器生成的音频。NL输入的一个单元是输入的最短的有意义的部分。例如,在英语中,单元将是单词;而多个单词形成NL输入中的其它更大的结构,例如短语、句子和段落。NL输入的单元在本文中也被称为标记(token)。
目前,算法可用于使机器能够理解NL输入。理解NL输入的至关重要的部分是重复地和可靠地从NL标记的许多可能的机器解释中选择正确的挑选项。例如,机器应该能够推断tow-mah-tow和tuh-may-tow仅是说tomato的不同方式,并且当tow-mah-tow作为NL标记被呈现时,该标记的正确选择或挑选项是tomato。
说明性实施例认识到,标记的机器理解对许多因素敏感。在一些情况下,对标记或其一部分的强调可能导致对应于标记的不正确的选择。在其它一些情况下,NL输入的方言、口音、所在地影响标记的含义。另外,可能有多个对应于标记的有效挑选项,但是基于所涉及的因素,它们中只有一个是正确的。
示例性实施例所考虑的因素与本文所述的标记的语音变化相关。这样,由说明性实施例所考虑的影响NL标记的机器理解的因素不同于影响正确的标记识别的拼写错误和打字错误类型的原因。目前,存在当在文本NL输入中遇到拼写错误的标记时帮助NLP机器选择正确的挑选项的技术。将若干拼写错误的标记映射到相同的正确的单词(例如,将诸如“tirminate”、“termate”和“termenate”之类的拼写错误映射到正确的选择-“terminate”),以便在遇到拼写错误的标记时帮助NLP机器作出正确的选择。
一些目前使用的NLP算法构建映射到正确拼写的拼写错误的大型高速缓存。这样的高速缓存可以是大型的,但是它们仍然远不是穷举的。例如,仅对于英语高速缓存而言,单个八字符单词理论上可具有268(208,827,064,576)个可能的变型。这类算法中的一些算法例如通过仅包括最常见的拼写错误来优化高速缓存。然而,映射的高速缓存仍然远未完成,不可扩展,并且仅处理有限类型的问题-文本输入中的拼写错误。
模糊匹配是用于将NL标记映射到一组选择中的选择或挑选项的另一类算法。模糊匹配算法是一种字符串匹配算法,它使用编辑距离算法的变型作为手段,用于查找来自文本输入的给定标记字符串与一组选择中的可用选择字符串之间的相似性。模糊匹配算法也对文本NL输入进行操作,并且目前被配置用于正确理解拼写错误的字符串。
目前,模糊匹配算法被设计成以牺牲精确度(precision)为代价而具有高查全率(recall)。查全率是检索到的相关实例的部分,而精确度是相关的检索到的实例的部分。精确度可以看作是准确度或质量的量度,而查全率是完整性或数量的量度。最大精确度指示没有假阳性,并且最大查全率指示没有假阴性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880073075.9/2.html,转载请声明来源钻瓜专利网。