[发明专利]用于识别自然语言文件中的整体-部分关系的语义处理器无效

专利信息
申请号: 200880014918.4 申请日: 2008-03-17
公开(公告)号: CN101702944A 公开(公告)日: 2010-05-05
发明(设计)人: J·托德亨德;I·索夫佩尔;D·帕斯塔诺豪;A·沃龙佐夫;A·韦特尔 申请(专利权)人: 发明机器公司
主分类号: G06F17/20 分类号: G06F17/20
代理公司: 永新专利商标代理有限公司 72002 代理人: 刘瑜;王英
地址: 美国马*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 识别 自然语言 文件 中的 整体 部分 关系 语义 处理器
【说明书】:

技术领域

本申请涉及用于从电子或数字形式的文件中进行自动知识识别和提取的系统和方法,所识别和提取的知识反映出宾语/概念之间和外部世界事实/主语域之间的整体-部分(Whole-Part)语义关系。

背景技术

下列美国专利文件对本申请所涉及的领域进行了描述:1995年5月向Ito颁发的美国专利No.5,418,889(下文中用Ito表示);1997年12月向Hitachi颁发的美国专利No.5,696,916(下文中用Hitachi表示);2000年2月向Liddy等颁发的美国专利No.6,026,388(下文中用Liddy表示);2001年2月向Boguraev等颁发的美国专利No.6,185,592(下文中用Boguraev 1表示);2001年4月向Boguraev颁发的美国专利No.6,212,494(下文中用Boguraev 2表示);2001年7月向Paik等颁发的美国专利No.6,263,335(下文中用Paik表示);2004年6月向Kim等颁发的美国专利No.6,754,654(下文中用Kim表示);2004年11月向Davies等颁发的美国专利No.6,823,325(下文中用Davies表示);以及2005年3月向Binnig等颁发的美国专利No.6,871,199(下文中用Binnig表示)。

知识库和知识工程是现代信息系统和相应技术的关键组成部分。知识工程通常基于从不同知识领域中的专家获得的信息的归纳。然而,分析表明,该方法无法用来创建足够的实际生活(工业)应用。存在两个问题:第一,这种知识的最可靠且最有效的来源是什么;以及第二,如何对这些知识进行识别、提取并随后进行形式化(formalize)。分析表明,在如今这个全球计算机化的时代,最可靠的知识来源是广义文字的文本,也就是作为一组自然语言文件(书籍、文章、专利、报告等)的文本。因此,考虑到第二个问题,知识工程的基本前提如下:

1.文本是知识表示的理想的自然和智能模型;

2.可以在文本中找到一切

第二个前提可能看起来过于绝对,但随着对文本范围进行扩大的趋势,这越来越符合实际。

从文本中能够获得什么类型的知识?通过什么自动方法来实现?一些现有的方法将目标放在具有严格的结构且是人工编译的数据库和具有严格定义的字段的文本上。通常会对文本进行浅显的语言分析。Kim对处理具有严格结构的文本(主要是电子邮件)进行了描述。Kim的处理从源文件的预先已知的字段中提取相应的信息并将这些信息置于反映组织结构的数据库(DB)(例如,具有组织内的个人的名字和头衔的字段的DB)的预先定义的字段中。Kim中描述的语言处理只用于根据所谓的过滤器从文件中提取关键项。

Davies描述了对文本进行词法和语法分析,以便区分名词与动词,并以这种方式根据“how”、“why”、“what”和“what is”的关系在预先定义和构造的数据库中进行非常明确的搜索。

Binnig还描述了分形层次网络形式的预先构造的数据库(即,知识数据库)的使用,其反映了外部世界(知识领域)的知识,以便自动扩展来自输入串的信息。首先,使用语义处理器对输入串(例如,语句的部分或整个语句等等)进行处理,该语义处理器执行句法和语法的解析和变换,以构建输入网络。该网络随后被“浸入”到知识数据库中,以通过关于宾语及其关系和定语的外部世界的模型,对作为某种记录的输入信息和输入信息随后的扩展进行扩展。

Boguraev 1描述了深入的文本分析的执行,其中,对于文本段,基于它们的使用频率以加权语义角色对最重要的名词组进行标记。

所有上述情况都关注于概念相关的特定知识。这是可以从文本中提取的入门级知识。

Boguraev 2描述了以计算机为媒介的语言分析的使用,其用于创建技术领域中的关键术语的分类,并且还确定技术功能(动词-宾语)的实行者(处理者)。

Hitachi描述了使用预先定义的概念字典的系统,该概念字典具有高-低关系,也就是概念之间的泛化(is-a)关系和部分-整体关系。

Liddy将类似的技术用于信息搜索系统中的用户询问扩展。

Ito描述了包括因果模型库和设备模型(device model)库的知识库的使用。设备模型库具有多组设备知识,这些设备知识描述目标机器的设备的分层。因果模型库是在设备模型库的基础上形成的,且具有多组目标机器中的故障事件的因果关系。因此,设备的每个部件中发生故障的可能原因是根据关于该部件与设备中的其它部件的结构连接的信息来猜测的。通常,最紧密“连接”的部件被确定为所述原因。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于发明机器公司,未经发明机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200880014918.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top