[发明专利]在二维方面立方体上进行方面聚类的方法和系统有效

专利信息
申请号: 201880082113.7 申请日: 2018-12-12
公开(公告)号: CN111512304B 公开(公告)日: 2023-09-19
发明(设计)人: 福田隆;菊地弘晶;四仓晋平 申请(专利权)人: 国际商业机器公司
主分类号: G06F16/30 分类号: G06F16/30
代理公司: 北京市中咨律师事务所 11247 代理人: 于静;杨晓光
地址: 美国*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 二维 方面 立方体 进行 方法 系统
【说明书】:

一种用于在二维方面立方体上进行方面聚类的计算机实现的方法和系统。该方法和系统通过生成二维方面立方体来基于方面执行文本挖掘,以分析一个或多个文档中的非结构化数据,所述二维方面立方体是与一个或多个文档集合相关联的一个或多个方面的相关性矩阵。将所述相关性矩阵中的所述一个或多个方面分组为至少一个聚类;计算所述聚类的中心;并将位于计算出的所述聚类的中心附近的所述方面标识为所述聚类的代表。

背景技术

有多种搜索方法。导航搜索使用层次(hierarchy)结构或分类法(taxonomy)来使用户能够浏览信息。直接搜索允许用户使用一个或多个关键字查询信息。方面(facet)搜索通常通过允许用户通过将多个过滤器和/或关键字应用于方面层次(facet hierarchy)来探索信息,从而结合了导航和直接搜索的元素。

所述方面层次沿称为方面的维度对信息进行分类。方面对应于信息的属性,并且通常通过使用各种提取技术对文本或文档进行分析或从与信息关联的元数据中得出。例如,在线零售商经常使用反映产品属性(例如类型、品牌、价格等)的方面层次。可以将方面值手动添加到所述方面层次,也可以使用文本挖掘软件自动提取。

可以使用方面来生成n维方面立方体,其中,所述方面立方体允许对数据进行多维访问。每个方面都是所述方面立方体的一个独立维度,可以计算和显示两个或多个维度的交集,例如在给定时间段内出售的所有特定类型、品牌和价格的产品。这允许用户查询方面值中的复杂关系,并发现所述方面值中以前未知的关系。

然而,在本领域现有技术中有需求改进派生方面值的技术。

发明内容

本文提供的本发明具有多个实施例,这些实施例例如用于实现计算机实现的方法和系统,所述方法和系统用于在二维方面立方体上对方面进行聚类以进行文本挖掘。

所述方法和系统基于方面执行文本挖掘以分析一个或多个文档中的非结构化数据。生成二维方面立方体,所述二维方面立方体是与一个或多个所述文档集合相关联的一个或多个方面的相关(correlation)矩阵。在所述相关性矩阵中将一个或多个方面分组为至少一个聚类。计算所述聚类的中心。位于所述聚类的所述计算出的中心附近的方面被标识为所属聚类的代表。

所述相关性矩阵可以包括自相关(self-correlation)矩阵。所述相关性矩阵的指定行和列的交点具有由所述指定行和列表示的所述方面的相关性值。

将所述相关性矩阵中的所述方面分组为所述聚类进一步包括:为所述相关性矩阵的行或列生成相关性向量;以及将所述相关性向量中的所述方面分组到所述聚类中。

所述方法和系统还可以包括:计算所述聚类中的所述方面的距离相关性;以及计算所述聚类的中心,以基于所述距离相关性来识别所述聚类中最接近所述聚类的所述中心的至少一个方面。

所述方法和系统可以进一步包括迭代地计算方面统计数据并且基于所述方面统计来提炼所述集合,以确定与所述集合中的所述文档相关联的所述方面。

因此,本发明提供了用于分析非结构化文本的文档的改进技术。具体地,本发明通过文本挖掘文档自动地派生方面值。使用作为相关性矩阵的n维方面立方体自动执行所述方面值的动态聚类。结果包括所述发现所述方面值之间以及所述文档本身之间的关系。

附图说明

现在参考附图,其中相同的附图标记始终表示相应的部分:

图1示出了根据一个实施例的内容分析系统的实施例。

图2示出了用户界面,所述界面显示了计算方面的统计数据。

图3示出了文本挖掘器,它迭代地计算一个文档集合的方面统计数据,并基于所述方面统计数据完善所述文档集合。

图4示出了一个文本挖掘器,其针对一个文档集合执行方面统计数据的计算,其中包括计算每个方面的频率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201880082113.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top