[发明专利]信息处理设备、信息处理方法及程序无效
申请号: | 201110096344.3 | 申请日: | 2011-04-14 |
公开(公告)号: | CN102236692A | 公开(公告)日: | 2011-11-09 |
发明(设计)人: | 高松慎吾 | 申请(专利权)人: | 索尼公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 康建峰;李春晖 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 设备 方法 程序 | ||
1.一种信息处理设备,包括:
数据获取器,被配置成获取具有多个句子的句子集合以及包括在所述句子集合中的多个短语;
短语特征判定器,被配置成判定短语特征,其中每个所述短语特征表示所述数据获取器获取的所述短语中的各个短语的特性;
集合特征判定器,被配置成判定表示所述句子集合的特性的集合特征;以及
压缩器,被配置成通过使用所述短语特征和所述集合特征来生成压缩短语特征,所述压缩短语特征具有低于所述短语特征的维度的维度以及每个所述压缩短语特征表示所述数据获取器获取的所述短语中的各个短语的特性。
2.根据权利要求1所述的信息处理设备,其中,
所述短语特征是具有分量的向量,其中,所述向量的每个分量对应于出现在所述多个短语中的词中的各个词。
3.根据权利要求2所述的信息处理设备,其中,
所述集合特征是具有分量的矩阵,其中,所述矩阵的每个分量对应于出现在所述句子集合中的词的组合中的各个词的组合;以及
所述短语特征的向量空间的至少一部分与构成所述集合特征的行向量或列向量的向量空间的一部分相重叠。
4.根据权利要求3所述的信息处理设备,其中,
所述压缩器通过概率模型中的最大似然估计来计算潜在变量,在所述概率模型中,关于所述多个短语的所述短语特征和所述集合特征被视为观测数据,以及所述潜在变量有助于所述观测数据的出现;以及
所述压缩短语特征包括在所述潜在变量中。
5.根据权利要求4所述的信息处理设备,其中,
有助于所述集合特征的出现的潜在变量以及有助于所述短语特征的出现的潜在变量是至少部分地在所述概率模型中彼此通用的变量。
6.根据权利要求3所述的信息处理设备,其中,
所述压缩器通过所述集合特征的矩阵分解来计算具有低于所述集合特征的阶的阶的第一低阶矩阵,以及通过短语特征矩阵的矩阵分解来计算具有低于所述短语特征矩阵的阶的阶的第二低阶矩阵,其中,所述短语特征矩阵包括关于所述多个短语的所述短语特征;
所述第二低阶矩阵是通过与具有和所述第一低阶矩阵的通用部分的矩阵的乘积来近似地导出所述短语特征矩阵的矩阵;以及
所述压缩短语特征包括在所述第二低阶矩阵中。
7.根据权利要求3所述的信息处理设备,其中,
所述集合特征判定器根据关于所述词的所述组合中的每个组合在所述句子集合中共同出现的次数来判定所述集合特征。
8.根据权利要求3所述的信息处理设备,其中,
所述集合特征判定器根据词之间的同义关系来判定所述集合特征。
9.根据权利要求1所述的信息处理设备,还包括:
聚类部件,被配置成根据特征之间的相似度来执行由所述压缩器生成的多个压缩短语特征的聚类。
10.根据权利要求9所述的信息处理设备,其中,
所述聚类部件将与作为所述簇的代表的短语对应的标签给予作为聚类结果而生成的至少一个簇中的每个簇。
11.根据权利要求1所述的信息处理设备,其中,
所述数据获取器提取均包括在所述句子集合中的一个句子中的词的对,以及获取所述多个短语,其中,所述多个短语中的每个短语表示关于所提取的对中的各个对的所述词之间的关系。
12.根据权利要求11所述的信息处理设备,还包括:
聚类部件,被配置成根据特征之间的相似度来执行由所述压缩器生成的多个压缩短语特征的聚类;以及
摘要器,被配置成关注包括在所述句子集合中的特定词,以及通过使用所述聚类部件关于与关注词有关的短语的聚类结果来创建关于所述关注词的摘要信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110096344.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种医学影像打印装置
- 下一篇:一种耐火面料