[发明专利]信息存储和检索无效
| 申请号: | 200810081765.7 | 申请日: | 2003-09-19 |
| 公开(公告)号: | CN101251857A | 公开(公告)日: | 2008-08-27 |
| 发明(设计)人: | D·W·特雷佩斯;J·R·托尔佩 | 申请(专利权)人: | 索尼英国有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 中国专利代理(香港)有限公司 | 代理人: | 刘春元 |
| 地址: | 英国*** | 国省代码: | 英国;GB |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 信息 存储 检索 | ||
本申请是申请号为03125509.4、申请日为2003年9月19日、发明名称未“信息存储和检索”的发明专利申请的分案申请。
技术领域
本发明涉及信息存储和检索。
背景技术
有许多已建立的系统被用于通过按照关键字进行搜索来定位信息(比如文件、图像、电子邮件、专利、因特网内容或者象音频/视频内容这样的媒体内容)。实例包括例如由“Google”TM或者“Yahoo”TM等这样的公司提供的因特网搜索“引擎”,其中通过关键字执行的搜索导致一个结果列表,该结果列表被搜索引擎按照所察觉的关联性而进行排序。
然而,在经常被称作大量内容收集的、包括大量内容的系统中,可能很难制定有效的检索查询来给出相对短的搜索“命中”列表。例如,在准备当前申请时,关于关键字“大量文件收集(massive document collection)”的Google搜索就提取了243000个命中。如果以后重复这个搜索,则预期此命中的数量还将增长,因为通过因特网所存储的内容的数量通常会随着时间而增加。检查这样的命中列表需要耗费高得惊人的时间。
总的来说,大量内容收集没有被很好利用的一些原因是:
●用户不知道存在相关内容
●用户知道相关内容存在但不知道它可能位于哪里
●用户知道内容存在但不知道它是相关的
●用户知道相关内容存在并知道如何找到它,但找到该内容花费很长时间
在2000年5月有关神经网络的IEEE学报的第11卷第3期的574-585页,Kohonen等人写的论文“Self Organisation of a Massive Document Collection”(“大量文件收集的自组织”)公开了一种利用所谓的“自组织映射图”(SOM)的技术。这些利用了所谓的无人管理的自学习神经网络算法,在其中表示每个文件的属性的“特征向量”被映射到SOM的节点上。
在Kohonen等人的论文中,第一步是预处理文件文本,然后从每个被预处理的文件中得到特征向量。在一种格式中,这可以是表示大字典的每个字的发生频率的直方图。在直方图中的每个数据值(也就是对应字典字的发生频率)变成一个n值向量中的值,其中n是在字典中候选字的总数量(在这个文章所述的例子中是43222)。或许可以将加权应用到该n个向量值,以强调某些字的增加的相关性或者改进的分化。
然后该n值向量映射到更小维数的向量上(也就是具有实际上小于n的m个值(在文章的实例中是500)的向量)。这可以通过使该向量乘以一个由随机数的数组所组成的(n×m)“投影矩阵”来实现。这个技术已经表明可生成较小维数的向量,其中任意两个缩小维数的向量具有与两个对应的输入向量几乎相同的向量点积。在1998年IJCNN会刊第413-418页中Kaski所写的论文“Dimensionality Reduction by Random Mapping:Fast Similarity Computation forClustering”(“通过随机映射缩小维数:用于群集的快速相似性计算”)中描述了这个向量映射过程。
然后该缩小维数的向量通过用“模型”(另一个向量)乘以每个向量的过程而被映射到SOM上的节点上(或者被称为神经元)。该模型由学习过程生成,该学习过程按照相互的相似性将该模型自动排序到SOM上,该SOM通常被表示为节点的二维网格。这并不是一个平凡的过程,为了一个只有不到七百万个文件的文件数据库,它使Kohonen等人在具有800MB内存的六处理器计算机上花费了六个星期。最终显示了一个由SOM组成的节点的网格,用户能够移近映射图的区域并选择一个节点,这使得用户界面提供一个到因特网页面的链接,该页面包含了被链接到那个节点的文件。
发明内容
本发明提供了一种信息检索系统,其中一组不同的信息项通过该信息项的相互的相似性而映射到一个节点阵列中的对应节点,使得类似的信息项映射到该节点阵列中在类似位置处的节点;该系统包括:
用于在用户显示器上的显示区中,把至少一些节点的表示显示为显示点的二维显示排列的图形用户界面;
用于定义该显示区的二维区域的用户控制器;
用于检测位于该显示区的二维区域中的那些显示点的检测器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼英国有限公司,未经索尼英国有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810081765.7/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





