[发明专利]概念驱动的自动分节标识有效
申请号: | 201410483039.3 | 申请日: | 2014-09-19 |
公开(公告)号: | CN104516942B | 公开(公告)日: | 2018-04-17 |
发明(设计)人: | P·E·布兰南;S·R·卡里尔;S·R·麦卡蒂尔;D·J·麦克洛斯基 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28 |
代理公司: | 北京市金杜律师事务所11256 | 代理人: | 酆迅,辛鸣 |
地址: | 美国纽*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 概念 驱动 自动 分节 标识 | ||
1.一种在包括处理器和存储器的数据处理系统中的用于生成用于电子文档的分节元数据的方法,所述方法包括:
由所述数据处理系统接收用于处理的电子文档;
由所述数据处理系统分析所述电子文档以标识在所述电子文档的文本内容内存在的概念;
由所述数据处理系统使在所述文本内容内的概念相互相关以基于定义有关概念或者概念模式的一个或者多个规则的应用来标识在所述文本内容内的概念组;
由所述数据处理系统基于在所述文本内容内的概念的相关性来确定在所述文本内容内的至少一个文本分节;
由所述数据处理系统基于所述确定的结果生成用于所述电子文档的分节元数据以由此标识在所述电子文档中的所述至少一个分节;以及
由所述数据处理系统,与所述电子文档关联地存储所述分节元数据以用于由文档处理系统使用。
2.根据权利要求1所述的方法,其中确定在所述文本内容内的至少一个文本分节还包括利用指定多个概念或者概念组的知识库并且确定在所述知识库中的每个概念或者概念组与所述文本内容的部分之间的仿射性测量。
3.根据权利要求1所述的方法,其中确定在所述文本内容内的至少一个文本分节还包括确定在所述文本内容中的候选文本分节中的概念到在所述文本内容中的分节头部之间的仿射性测量。
4.根据权利要求1所述的方法,其中确定在所述文本内容内的至少一个文本分节还包括:
标识在所述电子文档内的候选分节标题和提出的文本分节;
基于在所述提出的文本分节内的一个或者多个概念元素确定所述提出的文本分节是否具有与所述候选分节标题的阈值仿射性测量;以及
响应于所述提出的文本分节具有与所述候选分节标题的至少所述阈值仿射性测量来将所述提出的文本分节选择为与所述候选分节标题关联的实际文本分节。
5.根据权利要求4所述的方法,其中所述候选分节标题是从与所述提出的文本分节关联的概念或者概念组推断的分节标题。
6.根据权利要求1所述的方法,其中基于在所述文本内容内的概念的相关性确定在所述文本内容内的至少一个文本分节包括执行在所述文本内容内的所述概念的统计分析,其中所述统计分析包括以下中的至少一种:概念密度分析、逆文档频率分析或者在所述文本内容内的多个提出的文本分节之中的概念共性分析。
7.根据权利要求1所述的方法,其中所述文本内容不具有关联结构标注,并且其中基于在所述文本内容内的概念的相关性确定在所述文本内容内的至少一个文本分节被执行而未考虑所述文本内容关联的结构标注。
8.根据权利要求1所述的方法,其中基于在所述文本内容内的概念的相关性确定在所述文本内容内的至少一个文本分节还包括也基于与所述文本内容关联的结构标注确定在所述文本内容内的所述至少一个文本分节。
9.根据权利要求1所述的方法,其中所述文档处理系统是自然语言处理系统,并且其中所述方法还包括基于与所述电子文档关联的所述分节元数据对所述电子文档执行自然语言处理。
10.根据权利要求1所述的方法,其中所述文档处理系统是问题和答案系统,并且其中所述电子文档是由所述问题和答案系统摄取的文档语料库的部分,并且其中所述方法还包括使用与所述电子文档关联的所述分节元数据对输入问题执行问题回答操作,其中所述分节元数据被所述问题和答案系统用来修改与从所述电子文档获得的候选答案关联的分数。
11.一种在包括处理器和存储器的数据处理系统中的用于生成用于电子文档的分节元数据的系统,所述系统包括被配置为实施根据权利要求1至10中的任一权利要求所述的方法的模块。
12.一种在包括处理器和存储器的数据处理系统中的用于生成用于电子文档的分节元数据的装置,包括:
处理器;以及
耦合到所述处理器的存储器,其中所述存储器包括指令,所述指令在被所述处理器执行时,使所述处理器:
接收用于处理的电子文档;
分析所述电子文档以标识在所述电子文档的文本内容内存在的概念;
使在所述文本内容内的概念相互相关以基于定义有关概念或者概念模式的一个或者多个规则的应用来标识在所述文本内容内的概念组;
基于在所述文本内容内的概念的相关性来确定在所述文本内容内的至少一个文本分节;
基于所述确定的结果生成用于所述电子文档的分节元数据以由此标识在所述电子文档中的所述至少一个分节;以及
与所述电子文档关联地存储所述分节元数据以用于由文档处理系统使用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410483039.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种管理数据库日志的方法及装置
- 下一篇:影像笔记方法及系统