[发明专利]用于选择用以代表表格式信息的方法和系统有效
申请号: | 201410678045.4 | 申请日: | 2014-11-21 |
公开(公告)号: | CN104714931B | 公开(公告)日: | 2019-04-12 |
发明(设计)人: | D·K·比荣;S·N·格拉德;A·皮科维斯基 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/21 | 分类号: | G06F17/21 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅 |
地址: | 美国纽*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 选择 用以 表表 格式 信息 方法 系统 | ||
选择与表格对应的表格结构以描述表格结构中的单元格配对中的单元格何时应当彼此相似。选择单元格相似度函数以根据准则来比较单元格配对中的单元格并且输出单元格配对包括包含有彼此相似的值的单元格的概率。根据单元格相似度函数来确定表格结构中的第一单元格配对中的第一单元格和第二单元格彼此相似的单元格相似概率。使用单元格相似概率来调整表格结构代表表格的计算的概率。将所计算的概率指示为第一模型代表表格的概率,其中第一模型是表格结构和所选择的单元格相似度函数的函数。
技术领域
本发明总体上涉及用于处理文档的方法、系统和计算机程序产品。更具体地,本发明涉及用于选择用以代表表格式信息的结构的方法、系统和计算机程序产品。
背景技术
文档包括很多形式的信息。例如,被布置为语句和段落的文本信息传达叙述形式的信息。
一些类型的信息用表格式组织来呈现。例如,文档可以包括用于呈现财务信息、组织信息以及总体上通过某种关系彼此相关的任何数据项的表格。
自然语言处理(NLP)是一种有助于信息在人与数据处理系统之间的交换的技术。例如,NLP的一个分支涉及将给定内容变换成人类可用的语言或形式。例如,NLP可以接受其内容是计算机专用语言或形式的文档,并且产生其对应内容是人类可读形式的文档。
问答系统(Q&A系统)是一种在数据处理硬件上执行的人工智能应用。Q&A系统回答与用自然语言所呈现的给定主题领域有关的问题。
通常,Q&A系统提供有对如下领域特定信息的集合的访问:Q&A系统基于该领域特定信息的集合回答与该领域有关的问题。例如,Q&A系统访问关于该领域的知识体系,其中知识体系(知识库)可以按照各种配置来组织。例如,某个领域的知识库可以包括领域特定信息的结构化存储库、诸如与该领域有关的本体论或非结构化数据、或者关于该领域的自然语言文档的集合。IBM Watson是Q&A系统的一个示例。(IBM和Watson是美国和其他国家的国际商用机器公司的商标)。
Q&A系统可以被配置成接收来自各种源的输入。例如,Q&A系统可以通过网络接收以下内容作为输入:电子文档或其他数据的语料库、来自内容创建者的数据、来自一个或多个内容用户的信息、以及来自其他可能的输入源的其他这样的输入。至Q&A系统的输入中的一些或所有输入可以通过网络102来被路由。网络上的各种计算设备可以包括用于内容创建者和内容用户的访问点。这些计算设备中的一些计算设备可以包括用于存储数据的语料库的设备。网络可以包括本地网络连接和远程连接,使得Q&A系统可以在任何尺寸的环境、包括本地和全局环境、例如因特网中进行操作。另外地,Q&A系统可以被配置成用作前端系统,该前端系统能够使得从文档、网络可访问的源和/或结构化的数据源提取的或在其中代表的各种知识可用。以这一方式,一些处理填充具有输入接口的Q&A系统以接收知识请求以及相应地接收响应。
内容创建者在文档中创建内容用于作为数据的语料库的一部分、通过Q&A系统来使用。文档可以包括用于在Q&A系统中使用的任何文件、文本、文章或数据源。内容用户向Q&A系统中输入问题,这些问题由Q&A系统使用数据的语料库中的内容来回答。在处理针对语义内容评估文档的给定部分时,处理可以使用各种约定来向Q&A系统询问这样的文档。一个约定是将询问作为格式良好的问题发送给Q&A系统。语义内容是基于能指(signifier)、诸如词语、短语、标记和符号之间的关系的内容、以及它们代表什么、它们的意义或者蕴意。换言之,语义内容是诸如通过使用自然语言处理来解释表达的内容。
处理向Q&A系统发送形式合法的问题(例如自然语言问题)。Q&A系统解释问题并且向内容用户提供包含问题的一个或多个答案的响应。Q&A系统还可以按答案的经排序的列表向用户提供响应。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410678045.4/2.html,转载请声明来源钻瓜专利网。