[发明专利]信息处理设备、信息处理方法及程序无效

专利信息
申请号: 201110096344.3 申请日: 2011-04-14
公开(公告)号: CN102236692A 公开(公告)日: 2011-11-09
发明(设计)人: 高松慎吾 申请(专利权)人: 索尼公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 康建峰;李春晖
地址: 日本*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 信息处理 设备 方法 程序
【说明书】:

技术领域

本发明涉及一种信息处理设备、信息处理方法及程序。

背景技术

近年来,在计算机的信息处理能力增强的背景下,在自然语言处理领域中统计地处理文本的语义方面的技术正引起关注。此技术的一个示例是分析文档的内容并将各个文档分类到各种类别的文档分类技术。另一个示例是从所累积的文本的集合中提取有益信息的文本挖掘技术,其中,上述所累积的文本的集合例如是互联网上的网页或从公司的客户发送的问题或意见的历史。

通常,即使在表达一个相同的或类似的意思的情况下,在文本中经常使用不同的词或短语。因此,在文本的统计分析中试图通过定义用于表示文本的统计特性的向量空间并在向量空间中对各个文本的特征进行聚类来区分具有相似意思的文本(例如,参考Alexander Yates和Oren Etzioni,“Unsupervised Methods for Determining Object and RelationSynonyms on the Web,”Journal of Artigicial Intelligence Research(JAIR)34,2009年3月,第255-296页(在下文中,非专利文献1))。作为用于表示文本的统计特性的向量空间,例如经常使用的是通过将在文本中可能出现的词汇表中所包括的单个词布置为向量的单个分量(向量空间的轴)而构成的向量空间。

发明内容

但是,尽管对特征进行聚类的技术至少在例如具有多个句子的文档的分类中是有效的,但是该技术在试图识别短语的等同或同义关系的情况下难以产生显著成果。其主要原因是短语中所包括的词的数量小。例如,对人、内容或产品进行介绍的诸如新闻文章或网页的文档通常包括几十到几百个词。相反地,短语是比一个句子更小的单位,短语通常仅包括几个词。因此,由于甚至文档的特征都趋向于被获取为稀疏向量(其中的大部分分量为零的向量),所以短语的特征将被获取为更稀疏的向量即超稀疏向量。这样的超稀疏向量具有在意思的识别中可作为线索使用的信息很少的方面。这导致例如下面的问题。具体地,在基于超稀疏向量之间的相似性(余弦距离)的聚类中,根据意思应该属于一个簇的两个或更多个向量未被聚类到一个簇中。

例如,存在通过使用诸如奇异值分解(SVD)、关于潜在意义分析的概率潜在语义分析(PLSA)、或潜在狄利克雷分配(LDA)的概率技术将高维的向量压缩成低维的向量的技术。这些概率技术有效地用在对文档的特征的维数的压缩中。但是,如果只是将这些概率技术应用到作为超稀疏向量的短语的特征,数据的有效性丢失,并且在许多情况下获取的仅仅是不适合于诸如聚类的后续阶段处理的输出。针对这种情形,上述的非专利文献1为了获取关于短字符串的特征的有效性,试图通过从网上的文本中集合数量大约为几百万的字符串来保证大规模的数据集合。但是,处理这样的大规模数据集合导致对资源的限制的问题。另外,也存在实质上无法保证大规模的数据集合的许多情形,例如对属于所谓的长尾(long tail)的主题进行处理的情况。

例如,为了促进在短语级别识别等同或同义关系,本发明需要提供新颖的、改进的信息处理设备、信息处理方法和程序,其能够在保持或提高特征的有效性的同时压缩短语的特征的维数。

根据本发明的一个方式,提供了一种信息处理设备,该信息处理设备包括:数据获取器,被配置成获取具有多个句子的句子集合和包括在所述句子集合中的多个短语;短语特征判定器,被配置成判定短语特征,其中每个所述短语特征表示所述数据获取器获取的所述短语中的各个短语的特性。另外,该信息处理设备还包括:集合特征判定器,被配置成判定表示所述句子集合的特性的集合特征;以及压缩器,被配置成通过使用所述短语特征和所述集合特征来生成压缩短语特征。压缩短语特征具有低于短语特征的维度的维度以及每个压缩短语特征表示数据获取器获取的短语中的各个短语的特性。

根据此配置,信息处理设备通过除使用表示各个短语的特性的短语特征之外,还使用表示作为短语获取来源的句子集合的特性的集合特征,来在补偿特征的少量信息的同时压缩短语特征。

短语特征可以是具有分量的向量,其中,该向量的每个分量对应于出现在多个短语中的词中的各个词。

集合特征可以是具有分量的矩阵,其中,该矩阵的每个分量对应于出现在句子集合中的词的组合中的各个词的组合;以及短语特征的向量空间的至少一部分与构成集合特征的行向量或列向量的向量空间的一部分相重叠。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110096344.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top