[发明专利]用于计算机执行语言学分析的基于集解析在审
申请号: | 201680048248.2 | 申请日: | 2016-07-29 |
公开(公告)号: | CN108351869A | 公开(公告)日: | 2018-07-31 |
发明(设计)人: | 约翰·鲍尔 | 申请(专利权)人: | PAT公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 匹配 语言学分析 短语 储存 操作计算机 计算机编程 计算机执行 交集 短语属性 结果储存 目标语言 匹配元素 合并 链路集 双向性 中心词 计算机系统 适配 填充 创建 副本 解析 复制 迁移 重复 发现 | ||
本发明涉及语言学分析。特别地,本发明涉及一种操作计算机以执行语言学分析的方法。另一方面,本发明涉及一种执行该方法的计算机系统,又一方面,本发明涉及用于对计算机编程以执行该方法的软件。所述方法包括以下步骤:接收元素列表,将其储存在列表集中,之后重复匹配储存在所述集的元素中的模式,以及将结果储存在所述列表中,直到没有新的匹配被发现。每个匹配包括以下步骤:创建新合并集(重述)以将短语的完整表达储存为新元素,迁移短语中指定的中心词元素、所有短语属性,储存序列中匹配的元素,以及复制匹配元素的标记副本。创建并填充合并集后,执行实现WSD的链路集交集。可以选择得到的元素以识别最佳适配,实现有效WBI和PBI。元素的双向性使得短语可以生成为任意目标语言。
发明人:John Ball
相关申请的交叉引用
本申请要求2015年7月30日公开的名为“Set-based Parsing for LinguisticAnalysis(用于语言学分析的基于集解析)”的美国临时申请序列号62/198,684的优先权,该申请整体以引用方式并入本文。本申请还要求2016年7月28日提交的美国申请序列号15/222,399的优先权,该申请整体以引用方式并入本文。
背景技术
技术领域
本发明涉及用于人类语言理解和生成的计算机执行的语言学分析领域。更具体地,本发明涉及自然语言处理(NLP)、自然语言理解(NLU)、自动语音识别(ASR)、交互式语音应答(IVR)以及包括全自动高质量机器翻译(FAHQMT)在内的衍生应用。更具体地,本发明涉及一种使用灵活的模式匹配技术在许多级别解析语言元素(匹配序列以指派上下文和结构)的方法,其中,属性被分配给匹配模式以用于准确的后续匹配。特别地,本发明涉及一种操作计算机以执行语言理解和生成的方法。另一方面,本发明涉及一种执行该方法的计算机系统,又一方面,本发明涉及用于对计算机编程以执行该方法的软件。
相关技术描述
如今,全世界的语言和方言有上千万种。自计算机首次构建以来,已经多次尝试将其编程以理解人类语言并提供它们之间的翻译。
然而,一些领域成果有限,缺乏普遍成功。20世纪50年代以后制造的基于规则的系统现在大多已经不受欢迎,在这些系统中,程序员和分析师试图手动编码识别正确结果所需要的所有可能规则。
目前大多数工作都依靠统计技术对发音和语言字符进行分类,用于单词、语法及意义识别。“最有可能”的选择会导致错误累积。
自20世纪50年代起,解析树已经用于追踪和描述语法,但这些解析树无法在语言之间很好地普及,也不能很好地处理不连续问题。
当今的ASR系统通常从音频内容到特征模型的转换开始,在这种转换中,特征试图模仿人耳和声学系统的能力。然后,将这些特征与储存的音素模型匹配以识别单词,与词汇表中储存的单词模型和储存的单词序列模型匹配以识别短语、从句和句子。
利用上下文的系统经常使用“词袋”的概念来确定句子的含义。每个单词都基于其与之前分析的语料库的关系进行考虑,并基于概率确定意义。通过改变语料库源,可以轻松改变意义。
目前,在相关领域的这一领域,还没有系统产生可靠的、人类水平的准确性或能力。目前的观点是,可能会在2029年左右,当拥有足够的计算机处理能力时,达到人类水平的NLP能力。
发明内容
本发明的一个实施例提供一种通过结合层级中的模式以识别复杂性的方法。2013年的美国专利No.US 8,600,736B2描述了一种语言分析方法。该分析从文本中的单词列表开始:匹配方法创建表示最佳匹配结果的重述。
本发明的一个实施例将这种重述扩展为合并集(CS),即通过从匹配中嵌入相关细节合并之前匹配的模式,并根据需要贴上标签的集。初始元素或合并集的匹配是等同的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于PAT公司,未经PAT公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680048248.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:提供针对文档的交互式内容生成
- 下一篇:通用翻译