[发明专利]在二维方面立方体上进行方面聚类的方法和系统有效
申请号: | 201880082113.7 | 申请日: | 2018-12-12 |
公开(公告)号: | CN111512304B | 公开(公告)日: | 2023-09-19 |
发明(设计)人: | 福田隆;菊地弘晶;四仓晋平 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F16/30 | 分类号: | G06F16/30 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 于静;杨晓光 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 二维 方面 立方体 进行 方法 系统 | ||
1.一种计算机实现的方法,包括:
基于方面的文本挖掘,所述方面对应于信息的属性,通过以下方法分析一个或多个文档中的非结构化数据:
生成二维方面立方体,所述二维方面立方体是与所述一个或多个文档集合相关联的一个或多个方面的相关性矩阵;
将所述相关性矩阵中的所述一个或多个方面分组为至少一个聚类;
计算所述聚类的中心;
将位于计算出的所述聚类中心附近的方面识别为所述聚类的代表;以及
迭代地计算方面统计数据并基于所述方面统计数据来提炼所述集合,以便确定与所述集合中的文档相关联的所述方面。
2.根据权利要求1所述的方法,其中,所述相关性矩阵包括自相关性矩阵。
3.根据权利要求1所述的方法,其中,所述相关性矩阵的指定行和列的交点具有用于由所述指定行和列表示的所述方面的相关性值。
4.根据权利要求3所述的方法,其中将所述一个或多个方面分组还包括:
为所述相关性矩阵的行或列生成相关性向量;以及
将所述相关性向量中的所述方面分组到所述聚类中。
5.根据权利要求4所述的方法,还包括计算所述聚类中的所述方面的距离相关性。
6.根据权利要求5所述的方法,进一步包括基于所述距离相关性来计算所述聚类的中心以识别所述聚类中的最接近所述聚类的中心的所述方面中的至少一个。
7.一种计算机实现的系统,包括:
一台或多台基于方面进行文本挖掘的编程计算机,所述方面对应于信息的属性,通过以下方法分析一个或多个文档中的非结构化数据:
生成二维方面立方体,所述二维方面立方体是与所述一个或多个文档集合相关联的一个或多个方面的相关性矩阵;
将所述相关性矩阵中的所述一个或多个方面分组为至少一个聚类;
计算所述聚类的中心;
将位于计算出的所述聚类中心附近的方面识别为所述聚类的代表;以及
迭代地计算方面统计数据并基于所述方面统计数据来提炼所述集合,以便确定与所述集合中的文档相关联的所述方面。
8.根据权利要求7所述的系统,其中,所述相关性矩阵包括自相关性矩阵。
9.根据权利要求7所述的系统,其中,所述相关性矩阵的指定行和列的交点具有用于由所述指定行和列表示的所述方面的相关性值。
10.根据权利要求9所述的系统,其中将所述一个或多个方面分组还包括:
为所述相关性矩阵的行或列生成相关性向量;以及
将所述相关性向量中的所述方面分组到所述聚类中。
11.如权利要求10所述的系统,还包括计算所述聚类中的所述方面的距离相关性。
12.如权利要求11所述的系统,进一步包括基于所述距离相关性来计算所述聚类的中心以识别所述聚类中的最接近所述聚类的中心的所述方面中的至少一个。
13.一种计算机可读存储介质,所述计算机可读存储介质具有体现在其上的程序指令,所述程序指令可由一个或多个计算机执行以使所述计算机执行包括以下内容的方法:
基于方面的文本挖掘,所述方面对应于信息的属性,通过以下方法分析一个或多个文档中的非结构化数据:
生成二维方面立方体,所述二维方面立方体是与所述一个或多个文档集合相关联的一个或多个方面的相关性矩阵;
将所述相关性矩阵中的所述一个或多个方面分组为至少一个聚类;
计算所述聚类的中心;
将位于计算出的所述聚类中心附近的方面识别为所述聚类的代表;以及
迭代地计算方面统计数据并基于所述方面统计数据来提炼所述集合,以便确定与所述集合中的文档相关联的所述方面。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880082113.7/1.html,转载请声明来源钻瓜专利网。