[发明专利]训练主题模型的方法,对比文档内容的方法和相应的装置在审
| 申请号: | 201410177307.9 | 申请日: | 2014-04-29 |
| 公开(公告)号: | CN105095229A | 公开(公告)日: | 2015-11-25 |
| 发明(设计)人: | 郭宏蕾;钱伟红;郭志立;包胜华;苏中;D·帕塞多 | 申请(专利权)人: | 国际商业机器公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 周良玉;于静 |
| 地址: | 美国*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 训练 主题 模型 方法 对比 文档 内容 相应 装置 | ||
技术领域
本发明涉及文档内容分析,更具体地,涉及一种主题模型的构建和利用构建的主题模型对比文档内容。
背景技术
在计算机信息处理领域中,许多应用和工具能够提供对文档内容进行分析和比对的功能。例如,搜索引擎可以对文档内容进行初步的语义分析,以确定该文档与搜索的关键词之间的相关性。还提供有一些版本管理工具,通过对不同版本的文档进行对比,来追踪、记录不同版本下文档内容的变化。
然而,用户有时候需要对两篇内容相似的文档进行语义上的对比,以确定和区分语义上相似或相同的部分,以及语义上不相关的部分。例如,在一个例子中,两篇文档分别描述了两种相似的操作系统的功能特点;用户希望分析和对比这两篇文档,以获知这两种操作系统中有哪些相同的功能特点。在另一例子中,两篇文档分别描述了不同地区对于电池的使用和废弃的法律规定;用户希望通过对比这两篇文档,确定这两个地区对于电池的废弃的规定有什么不同。在以上的两个例子中,两篇文档虽然记录了相似的内容,但是其描述方式可能具有较大的差异。例如,两篇文档可能具有完全不同的文档结构,从不同角度和方面来描述同一主题,还可能采用不同的用语来表达同一概念。这为文档的分析和比对带来了困难。
现有的搜索引擎一般可以用于衡量一篇文档和给定关键词的相关性,有些搜索引擎的算法甚至可以从总体上衡量两篇文档的相关性。但是它们仍然无法对不同文档的各个部分进行语义上的分析和对齐。现有的版本管理工具仅对文档进行字面上的比对,无法提取其语义信息。面对不同文档结构、不同用语的两篇文档,版本管理工具无法实现语义上的对比和分析。因此,希望提出改进的方案,能够对文档进行语义上的分析和比对,以满足用户的需求。
发明内容
考虑到现有技术中的不足,提出本发明,以提供一种基于本体论的主题模型,并利用这样的主题模型实现文档内容的比对。
根据本发明的第一方面,提供了一种训练主题模型的方法,包括:提取语料库文档中的文本片段的中心概念;为所述中心概念构建特征向量,使得所述特征向量包含所述中心概念在本体论中的关联信息;以及基于所构建的至少一个特征向量,训练主题模型。
根据本发明的第二方面,提供了一种比对文档内容的方法,包括:利用主题模型,分别获取第一文档对应的第一主题集合和第二文档对应的第二主题集合,其中所述主题模型基于为概念构建的特征向量而训练,所述特征向量包含所述概念在本体论中的关联信息;比对所述第一主题集合和第二主题集合中的主题,以将相同主题对齐;以及对相同主题下第一文档中的第一文本片段集合和第二文档中的第二文本片段集合进行语义分析,以将第一文本片段集合和第二文本片段集合中语义相同的文本片段对齐。
根据本发明第三方面,提供了一种训练主题模型的装置,包括:概念提取单元,配置为提取语料库文档中的文本片段的中心概念;向量构建单元,配置为,为所述中心概念构建特征向量,使得所述特征向量包含所述中心概念在本体论中的关联信息;以及训练单元,配置为基于所构建的至少一个特征向量,训练主题模型。
根据本发明第四方面,提供了一种比对文档内容的装置,包括:主题获取单元,配置为利用主题模型,分别获取第一文档对应的第一主题集合和第二文档对应的第二主题集合,其中所述主题模型基于为概念构建的特征向量而训练,所述特征向量包含所述概念在本体论中的关联信息;主题比对单元,配置为比对所述第一主题集合和第二主题集合中的主题,以将相同主题对齐;以及文本片段分析单元,配置为对相同主题下第一文档中的第一文本片段集合和第二文档中的第二文本片段集合进行语义分析,以将第一文本片段集合和第二文本片段集合中语义相同的文本片段对齐。
通过以上的方法和装置,可以训练得到有效反映主题与实体之间的语义关联的主题模型。利用这样的主题模型,可以确定出不同文档中的主题序列,进而对相同主题下的文本片段进行语义分析,实现文档语义内容的有效比对。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图;
图2示出根据本发明一个实施例的训练主题模型的方法的流程图;
图3示出根据本发明一个实施例的比对文档内容的方法的流程图;
图4示出根据一个实施例获得第一主题集合的步骤;
图5A示例性示出第一文档和第二文档的主题的对齐;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410177307.9/2.html,转载请声明来源钻瓜专利网。





