[发明专利]属性提取和聚类设备及方法无效
| 申请号: | 201110077400.9 | 申请日: | 2011-03-22 |
| 公开(公告)号: | CN102693245A | 公开(公告)日: | 2012-09-26 |
| 发明(设计)人: | 赵凯;胡长建;邱立坤;许洪志;王大亮 | 申请(专利权)人: | 日电(中国)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 潘剑颖 |
| 地址: | 100191 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 属性 提取 设备 方法 | ||
1.一种用于获得文本中的属性和描述的设备,包括:
提取单元,用于从文本中提取所有词语;
向量生成单元,用于生成针对已提取的词语的上下文向量;
聚类单元,用于根据所生成的上下文向量对已提取的词语进行聚类;以及
区分单元,用于将已聚类的词语进行区分。
2.根据权利要求1所述的设备,其中,所述区分单元对已聚类的词语中属于同一类的词语按照词性分为多个组,并根据所述多个组中的词语在文本中的前后出现关系对所述多个组中的词语进行区分。
3.根据权利要求2所述的设备,其中,所述区分单元被配置为:
针对所述多个组中的任意两组i和j,计算第i组的词语在所述文本中出现在第j组的词语之前的次数Nij以及第j组的词语在所述文本中出现在第i组的词语之前的次数Nji;以及
如果Nij>Nji,则第i组的词语为属性,且第j组的词语为描述;
如果Nij<Nji,则第j组的词语为属性,且第i组的词语为描述。
4.根据权利要求3所述的设备,其中,所述区分单元还被配置为:
当某个组i既被区分为属性又被区分为描述时,针对所有的组计算 和 以及
如果 则第i组的词语为属性;
如果 则第i组的词语为描述。
5.根据权利要求1所述的设备,其中,所述聚类单元包括:
相似度计算子单元,计算已提取的词语之间的相似度;以及
类中心计算子单元,基于计算得到的相似度来计算各个类的类中心,从而对已提取的词语进行聚类。
6.根据权利要求5所述的设备,其中,所述类中心计算子单元计算参数矩阵[r(i,k)]n*n和[a(i,k)]n*n,r(i,k)表示点k适合作为点i的类中心的程度,a(i,k)表示点i选择点k作为它的类中心的适合程度,n表示点的总数,并且所述类中心计算子单元选择与r(i,k)和a(i,k)的最大和相对应的点k作为点i的类中心。
7.根据权利要求6所述的设备,其中,所述类中心计算子单元按照迭代的方式计算参数矩阵[r(i,k)]n*n和[a(i,k)]n*n,直到计算结果不再发生变化、或者计算结果变化小于阈值、或者迭代次数达到预设值为止。
8.一种用于获得文本中的属性和描述的方法,包括以下步骤:
从文本中提取所有词语;
生成针对已提取的词语的上下文向量;
根据生成的上下文向量对已提取的词语进行聚类;以及
将已聚类的词语进行区分。
9.根据权利要求8所述的方法,其中,对已聚类的词语中属于同一类的词语按照词性分为多个组,并根据所述多个组中的词语在文本中的前后出现关系而对所述多个组中的词语进行区分。
10.根据权利要求9所述的方法,其中,针对所述多个组中的任意两组i和j,计算第i组的词语在所述文本中出现在第j组的词语之前的次数Nij以及第j组的词语在所述文本中出现在第i组的词语之前的次数Nji;以及
如果Nij>Nji,则第i组的词语为属性,且第j组的词语为描述;
如果Nij<Nji,则第j组的词语为属性,且第i组的词语为描述。
11.根据权利要求10所述的方法,其中,
当某个组i既被区分为属性又被区分为描述时,针对所有的组计算 和 以及
如果 则第i组的词语为属性;
如果 则第i组的词语为描述。
12.根据权利要求8所述的方法,其中,所述根据生成的上下文向量对已提取的词语进行聚类的步骤包括:
计算已提取的词语之间的相似度;以及
基于计算得到的相似度来计算各个类的类中心,从而对已提取的词语进行聚类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日电(中国)有限公司,未经日电(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110077400.9/1.html,转载请声明来源钻瓜专利网。





