[发明专利]根据检索关键词检索文档数据的方法及其计算机系统、计算机程序有效

专利信息
申请号: 201080054742.2 申请日: 2010-09-10
公开(公告)号: CN102640152A 公开(公告)日: 2012-08-15
发明(设计)人: 稻垣猛 申请(专利权)人: 国际商业机器公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京市金杜律师事务所 11256 代理人: 陈伟;孟祥海
地址: 美国纽*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 根据 检索 关键词 文档 数据 方法 及其 计算机系统 计算机 程序
【说明书】:

技术领域

本发明涉及一种根据检索关键词检索文档数据的方法及其计算机系统和计算机程序。

背景技术

随着计算机网络的普及、计算机系统的高性能化,对庞大的电子化文档数据(以下称为文档数据)的访问已经变得容易。文档数据的检索能够从这些庞大的文档数据中找出需要的文档数据。文档数据的检索针对各种对象进行。例如,在为因特网浏览器中的搜索引擎的情况下,分散于全世界的服务器或者中间服务器(也称为代理服务器)上的Web页就是检索对象。另外,在企业中,在企业活动中所存储的文档数据就是检索对象。作为检索文档数据的代表性方法,有对检索关键词与文档数据中的单词或词组之间的相关性进行解析来找到与检索关键词同现相关的单词或词组的方法。例如,通过找到与单词“IBM”(IBM公司的注册商标)相关性强的单词或词组,能够根据该相关性强的单词或词组来从检索对象中适当地找出与单词“IBM”(IBM公司的注册商标)关联性高的文档数据。检索文档数据的方法被记载在例如下述非专利文献1中。

非专利文献1:Christopher D.Manning,et al.,“An Introduction to Information Retrieval”,Chapters 6,14,16 and 18,Cambridge University Press,April 1,2009

发明内容

本发明提供一种在根据检索关键词检索文档数据时在更大范围的上下文中适当地找出相关性的方法。

本发明提供一种方法,其根据检索关键词检索作为利用自然语言对事态的描述的文档数据,其中该文档数据与该检索关键词或者该检索关键词所相关联的关联关键词具有相关性,该方法使计算机执行以下步骤:

将上述文档数据分别属于用于对文档数据进行分簇或分类的簇(cluster)或类的评分或概率作为第一向量进行计算的步骤;

与检索关键词被输入的情形相应地,将该检索关键词或与该检索关键词相关的关联关键词属于上述簇或类的评分或概率作为第二向量进行计算的步骤;

计算上述第一向量分别与上述第二向量的内积的步骤,该计算出的内积值是上述文档数据针对上述检索关键词的评分;以及

根据包含分类关键词集的各个关键词的文档数据和上述评分为预定阈值以上或者上述评分包含在上位预定比例中的文档数据求出相关值的步骤。

本发明还提供一种计算机系统,其根据检索关键词,检索作为利用自然语言对事态的描述的文档数据,该文档数据与该检索关键词或者该检索关键词所相关联的关联关键词具有相关性。该计算机系统包括:

第一计算部,其将上述文档数据分别属于用于对文档数据进行分簇或分类的簇或类的评分或概率作为第一向量进行计算;

第二计算部,其与检索关键词被输入的情形相应地,将该检索关键词或与该检索关键词相关的关联关键词属于上述簇或类的评分或概率作为第二向量进行计算;

第三计算部,其计算上述第一向量分别与上述第二向量的内积,该计算出的内积值是上述文档数据针对上述检索关键词的评分;以及

相关值计算部,其根据包含分类关键词集的各个关键词的文档数据和上述评分为预定的阈值以上或者上述评分包含在上位预定比例中的文档数据而求出相关值。

在本发明的一个实施方式中,上述相关值计算部根据包含分类关键词集的各个关键词的文档数据的第一数据集、上述评分为预定阈值以上或上述评分包含在上位预定比例中的文档数据的第二数据集、及在该第一数据集和该第二数据集这两个数据集中都存在的文档数据的共同的数据集求出相关值。另外,在本发明的一个实施方式中,上述相关值计算部例如按照下述式20的相关函数求出相关值。

在本发明的一个实施方式中,上述相关值计算部根据包含分类关键词集的各个关键词的文档数据的第一数据集、上述评分为预定阈值以上或上述评分包含在上位预定比例中的文档数据的第二数据集、包含上述检索关键词或关联关键词的文档数据的第三数据集、及在该第一数据集和该第二数据集这两个数据集中都存在的文档数据的共同的数据集求出相关值。另外,在本发明的一个实施方式中,上述相关值计算部例如按照下述式26的相关函数求出相关值。

本发明还提供一种使计算机执行上述所记载的方法的各步骤的计算机程序。

发明的效果

即使在利用作为现有技术的关键词检索方法时不存在相应的文档数据而得不到检索结果时,采用按照本发明的实施方式的检索方法也能够准确地检索出需要的文档数据。

附图说明

图1A表示包含文档数据的分簇或分类的索引数据库的创建流程。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201080054742.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top