[发明专利]概念驱动的自动分节标识有效
申请号: | 201410483039.3 | 申请日: | 2014-09-19 |
公开(公告)号: | CN104516942B | 公开(公告)日: | 2018-04-17 |
发明(设计)人: | P·E·布兰南;S·R·卡里尔;S·R·麦卡蒂尔;D·J·麦克洛斯基 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28 |
代理公司: | 北京市金杜律师事务所11256 | 代理人: | 酆迅,辛鸣 |
地址: | 美国纽*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 概念 驱动 自动 分节 标识 | ||
技术领域
本申请总体上涉及一种改进的数据处理装置和方法,并且更具体地涉及用于概念驱动的自动分节标识的机制。
背景技术
随着计算网络(比如因特网)的使用增加,人们当前被来自各种结构化和非结构化来源的可用于他们的信息量淹没和压倒。然而,信息差距在用户试图拼凑他们可以在搜寻关于各种主题的信息期间发现他们认为相关的信息时大量存在。为了辅助这样的搜索,新近研究已经涉及生成问题和答案(QA)系统,该QA系统可以取得输入问题、分析它并且返回指示对输入问题的最可能答案的结果。QA系统提供用于搜索内容源(例如,电子文档)的大型集合的自动化机制,并且关于输入问题分析他们以确定对问题的答案和关于答案如何准确用于回答输入问题的置信度测量。
一种这样的QA系统是从纽约阿芒克的国际商业机器公司(IBM)可获得的WatsonTM系统。WatsonTM系统是高级自然语言处理、信息检索、知识表示和推理以及机器学习技术向开域问题回答领域的应用。WatsonTM系统在IBM的用于假设生成、大量证据收集、分析和打分的DeepQATM技术上被构建。DeepQATM取得输入问题、分析它、将问题分解成组成部分、基于分解的问题和答案来源的主要搜索的结果生成一个或者多个假设、基于从证据来源检索证据来执行假设和证据打分、执行一个或者多个假设的合成并且基于训练的模型执行最终合并和排行以与置信度测量一起输出对输入问题的答案。
各种美国专利申请公开文本描述了各种类型的问题和答案系统。美国专利申请公开文号2011/0125734公开了一种用于基于数据语料库生成问题和答案对的机制。该系统始于问题集合并且然后分析内容集合以提取对那些问题的答案。美国专利申请公开号2011/0066587公开了一种用于将分析的信息的报告转换成问题汇集并且确定用于问题汇集的答案是否从信息集合被回答或者反驳的机制。结果数据被并入到更新的信息模型。
由QA系统或者其它电子文档处理系统生成的结果的质量经常依赖于用于从文档提取信息的能力。为了辅助这样的电子处理,元数据经常与可以由这些电子文档处理系统解析和处理的电子文档关联。然而,与电子文档本身的内容一样,由电子文档处理系统生成的结果的质量也受在这一元数据中提供的信息的数量和质量限制。
发明内容
在一个例示性实施例中,提供了一种在包括处理器和存储器的数据处理系统中的用于生成用于电子文档的分节元数据的方法。该方法包括由数据处理系统接收用于处理的电子文档并且由数据处理系统分析电子文档以标识在电子文档的文本内容内存在的概念。该方法还包括由数据处理系统使在文本内容内的概念相互相关以基于定义有关概念或者概念模式的一个或者多个规则的应用来标识在文本内容内的概念组。此外,该方法包括由数据处理系统基于在文本内容内的概念的相关性来确定在文本内容内的至少一个文本分节。另外,该方法包括由数据处理系统基于该确定的结果生成用于电子文档的分节元数据以由此标识在电子文档中的至少一个分节。该方法还包括由数据处理系统与电子文档关联地存储分节元数据以用于由文档处理系统使用。
在其它例示性实施例中,提供了一种包括计算机可用或者可读介质的计算机程序产品,该计算机可用或者可读介质具有计算机可读程序。计算机可读程序当在数据处理系统或者计算设备上被执行时,使数据处理系统或者计算设备执行以上关于方法例示性实施例概述的操作中的各种操作和组合。
在又一例示性实施例中,提供了一种系统/装置。该系统/装置可以包括一个或者多个处理器和耦合到一个或者多个处理器的存储器。存储器可以包括指令,这些指令在由一个或者多个处理器执行时,使一个或者多个处理器执行以上关于方法例示性实施例概述的操作中的各种操作和组合。
本发明的这些和其它特征以及优点将在本发明的示例实施例的以下具体描述中被描述或者按照以下具体描述将变得为本领域普通技术人员所清楚。
附图说明
将通过参照在结合附图阅读时的例示性实施例的以下具体描述来最好地理解本发明及其优选使用方式和更多目的及优点,其中:
图1描绘了计算机网络中的问题和答案(QA)系统的一个例示性实施例的示意图;
图2描绘了图1的QA系统的一个实施例的示意图;
图3描绘了根据一个例示性实施例的问题和答案系统分析流水线的示例框图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410483039.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种管理数据库日志的方法及装置
- 下一篇:影像笔记方法及系统