[发明专利]训练主题模型的方法,对比文档内容的方法和相应的装置在审
| 申请号: | 201410177307.9 | 申请日: | 2014-04-29 |
| 公开(公告)号: | CN105095229A | 公开(公告)日: | 2015-11-25 |
| 发明(设计)人: | 郭宏蕾;钱伟红;郭志立;包胜华;苏中;D·帕塞多 | 申请(专利权)人: | 国际商业机器公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 周良玉;于静 |
| 地址: | 美国*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种训练主题模型的方法和比对文档内容的方法以及相应的装置,上述训练主题模型的方法包括:提取文本片段的中心概念;为该中心概念构建特征向量,使得该特征向量包含中心概念在本体论中的关联信息;以及基于所构建的至少一个特征向量,训练主题模型。比对文档内容的方法包括:利用以上训练的主题模型,分别获取两个文档对应的两个主题集合;比对两个主题集合中的主题,将相同主题对齐;以及对相同主题下两个文档中的文本片段进行语义分析,以将语义相同的文本片段对齐。通过以上的方法和装置,可以基于中心概念的特征向量训练得到主题模型。利用这样的主题模型,可以实现文档语义内容的有效比对。 | ||
| 搜索关键词: | 训练 主题 模型 方法 对比 文档 内容 相应 装置 | ||
【主权项】:
一种训练主题模型的方法,包括:提取语料库文档中的文本片段的中心概念;为所述中心概念构建特征向量,使得所述特征向量包含所述中心概念在本体论中的关联信息;以及基于所构建的至少一个特征向量,训练主题模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410177307.9/,转载请声明来源钻瓜专利网。





