[发明专利]语言分析有效
| 申请号: | 200780049161.8 | 申请日: | 2007-12-21 |
| 公开(公告)号: | CN101595474A | 公开(公告)日: | 2009-12-02 |
| 发明(设计)人: | 约翰·鲍尔 | 申请(专利权)人: | 思解私人有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
| 代理公司: | 北京康信知识产权代理有限责任公司 | 代理人: | 余 刚;吴孟秋 |
| 地址: | 澳大利亚*** | 国省代码: | 澳大利亚;AU |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语言 分析 | ||
技术领域
本发明涉及语言分析。具体地,本发明包括操作计算机来执行 语言分析的方法。在另一方面,本发明为实现该方法的计算机系统, 并且在进一步的方面,本发明为用于对计算机进行编程以执行该方 法的软件。
背景技术
当今,全世界讲述的语言大约在6,500种和10,000种之间。由 于首先构筑了计算机,所以尝试对计算机进行编成以理解人类语言 并且提供人类语言之间的翻译。已经提出了许多计算机方法来理解 并且翻译语言。这些方法通常依靠基于从语言样本的分析所计算的 语序可能性利用标记词或者统计方法所创造的具体语言规则的集 合的使用。对于基于规则的系统,程序师通常写出具体解释规则的 代码——一个冗长且复杂的任务。此外,这些方法通常不能有效地 满足惯用词和短语的使用。
发明内容
本发明为操作计算机来执行语言分析的方法,包括以下步骤:
将输入文本划分为词和句子。
对于每个句子,将句子中的短语与存储在数据库中的已知短语 进行比较,如下:
对于句中的每个词,将该词的涵义和跟随该词的词的涵义与存 储短语的词的涵义进行比较,从以该词开始的最长存储的短语开 始,并且从最长至最短来进行比较。
在两个或者多个连续词的涵义和存储短语的涵义之间找到匹 配的事件中,利用描述匹配的涵义的代短语(overphrase)来标记匹 配的两个或者多个连续词。
在已经比较倒数第二个词之后,通过由各个代短语代替匹配的 部分来改写该句子。
然后,利用改写的子句来重复比较过程直到不存在进一步的改 写。
用在比较处理中的涵义可以包括词的文字拼写、词义意义、词 的语法结构(grammatical use,另一译法“语法应用”)或者词的其 他属性。通过这些涵义的任何一个的使用,或者通过添加包括一个 或者多个其他涵义的第二或者第三等级比较来满足本发明。通过这 种方式匹配词顺序,可以同时处理语法内容和语义内容两者。
比较过程可以不仅包括词的涵义的比较,例如,其可以包括取 决于短语周围的词的条件要求。例如,可以通过为否定或者形容词 的短语之前的词来影响比较结果。
可以根据预定顺序来执行比较过程。类似地,在输入文本中的 短语或者词可以根据与短语和词相关联的预定转换顺序被转化为 它们的代短语。该顺序可向前运行,从句子的开始与短语匹配;或 者向后,通过首先与句子匹配并随后与分句和短语匹配。
本发明通过对读取文本时人类所使用的心理过程进行仿真来 执行语言分析。其使用等级模式存储、顺序分析层和双向模式匹配 的结合以将基于文本的人类语言转换为其成分语法部分。这些技术 模仿主要在生物大脑中所见到的功能。本发明将文本转换为文本的 等级模式,或者通过将词与短语匹配,然而将短语与分句匹配,然 后将分句与句子匹配,或者相反,通过将句子与分句匹配,然后将 分句与短语匹配。在维持用于当需要时首先匹配较短的短语的灵活 性的同时,设计该转换以确保在较短的模式之前匹配最长的模式。 这也满足了在基于语法的短语之前匹配惯用短语或名称。
比较过程可以进一步包括错误校正步骤,当遇到拼写错误时, 错误校正步骤校正输入句子中拼错的词并且利用校正的词来重复 比较过程。
本发明可以包括建立阶段,其中词和其与文字短语、语法短语、 以及其他属性的关系存储在本发明可到达的数据库中。一旦在操作 中将这些模式添加至数据库,就可以通过本发明来学习新的词和短 语。
在语言分析中,词义消歧为确定其中具有多个不同意义的词在 给定句子中用作哪种意义的问题。换句话说,有时短语独立于词甚 至包括词的字母来确定意义。本发明通过在开始为每个词加载所有 的词义来满足词义消歧,并且然后取消选定在所提供的文本中不正 确的那些词义。这留下了在利用文本考虑邻近词的存储的属性模式 的所有情况下一致的词义。与在方形中的9点通过在盒子外部绘制 利用4条直线连续地连接的难题一样,通过在词义本身和邻近的词 义模式之间匹配的词义来影响词义消歧。
本发明可以经由语言生成进一步满足词义消歧。本发明可以在 其输出(词义、短语、语法结构和属性)上操作以使用词或者短语 的属性和语法结构来确定用于词或者短语的一致选择。等价的短语 和词可以为相同的或者不同的语言。可以将词和短语与在建立阶段 期间与其他语言中的其等价词义的意义链接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思解私人有限公司,未经思解私人有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200780049161.8/2.html,转载请声明来源钻瓜专利网。





