[发明专利]类似文件检索辅助装置以及类似文件检索辅助方法有效
申请号: | 201210539130.3 | 申请日: | 2012-12-13 |
公开(公告)号: | CN103294741A | 公开(公告)日: | 2013-09-11 |
发明(设计)人: | 间赖久雄;藤稿航平 | 申请(专利权)人: | 株式会社日立制作所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 杨谦;房永峰 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 类似 文件 检索 辅助 装置 以及 方法 | ||
技术领域
本发明涉及从大量的文件集合中检索所希望的文件的文件检索装置以及文件检索方法。特别是,本发明涉及类似文件检索辅助装置以及类似文件检索辅助方法,其中,从将利用者指定的文章或文件作为检索条件,将与此记载内容类似或关连的文件作为检索对象的文件集合中进行检索,并从类似或关连程度高的文件开始依次输出。
背景技术
通过互联网等通信网络或PC/便携式电话等硬件的普及和低价格化、CPU的高速化、存储器或硬盘的大容量化/低价格化、检索系统或文件编辑器等软件的高功能化/高性能化等,一般的人们能够容易地访问大量的文件信息。而另一方面,从大量的文件集合中迅速准确且低劳动量地检索/取得所希望的文件却变得困难。
作为从大量的文件集合中检索所希望的文件的方式,一般是关键字检索。在关键字检索中,利用者制作由与所希望的文件有关连的一个以上的关键字和表示关键字间的逻辑关系性的逻辑运算符(AND/OR/NOT等)构成的关键字逻辑式。文件检索装置接收来自利用者的逻辑式,从检索对象文件集合中仅检索该逻辑式为真的文件,并向利用者示出。
但是,在关键字检索中,经常存在利用者想不到为了将检索结果文件压缩至可阅览的个数,应该制作怎样的关键字逻辑式的情况。此外,优先输出反映了利用者的检索意图的检索结果文件的作法,在精度上来讲也是困难的。
而近来,在关键字检索的领域中,从将由利用者输入的任意的文章或指定的任意的文件作为检索条件,从作为检索对象的文件集合中检索与此记载内容类似或关连的文件,从类似或关连程度高的文件开始依次输出的技术普及起来。该技术被称为类似文件检索。另外,该技术也被称为概念检索、自然语言检索、自然语句检索、模糊检索、联想检索。
类似文件检索通过以下的处理来实现。首先,从构成作为检索对象的文件集合的各检索对象文件提取表现记载内容的特征的特征词,此后,对各特征词计算/赋予与其重要度相对应的权重,由此,生成由一个以上的加权特征词构成的特征词矢量,并预先存储于检索目录。此外,也通过相同的方法,从利用者所输入的文章或所指定的文件(以下,统称为“输入文件”)提取加权特征词并生成特征词矢量。接着,将通过输入文件所生成的特征矢量与各检索对象文件的特征矢量相对照,计算两者的类似度。特征矢量间的内积或特征矢量成角的余弦值经常被用作类似度的计算。此后,将按降序对类似度进行排序所获得的顺位靠前的文件作为与输入文件类似的文件输出。
现有技术文献
专利文献
专利文献1日本特开2002-230032号公报
专利文献2日本特开1995-192020号公报
专利文献3日本特开2000-311173号公报
发明所要解决的课题
在类似文件检索中,能够将自己脑中想起的任意文章或手头的文件直接作为检索条件来进行指定,因此,具有无需利用者制作关键字逻辑式的优点。此外,能够从与输入文件的内容类似程度高的文件开始赋予顺位地进行输出,因此,也具有利用者能够迅速找到所希望的文件的优点。
但是,在类似文件检索中,通过对照将大量的加权特征词作为要素的特征词矢量,判断输入文件与检索对象文件之间的类似性。因此,所具有的缺点是:利用者很难理解检索依据,即为什么此文件被作为类似文件输出。更具体地讲,在类似文件检索中存在以下所示的4个课题。
·课题(1):不能理解输入文件中的哪个特征词为类似文件检索结果的输出做出了何种程度的贡献。
·课题(2):不能理解类似文件检索进展顺利的程度。
·课题(3):不能理解类似文件检索进展不顺利的情况下,其原因是什么。
·课题(4):不能理解类似文件检索进展不顺利的情况下,接下来如何才能获得更好的检索结果。
作为与上述课题(1)有关连的技术文献,包括专利文献1以及专利文献2。这些专利文献中所记载的发明通过以检索结果和检索中所使用的项目为轴而构成的表或曲线的形态来显示检索结果。
在专利文献1中,基于多个判断基准,计算按判断基准的文件适合值,并计算将这些值汇总得到的综合文件适合值。在输出文件检索结果时,将检索结果文件和判断基准作为2轴,输出以按检索结果文件的综合文件适合值以及按判断基准的文件适合值为值的表。通过该表,利用者能够理解哪个判断基准为哪个检索结果文件的输出做出了怎样的贡献。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210539130.3/2.html,转载请声明来源钻瓜专利网。