[发明专利]文档搜索装置和文档搜索方法在审
申请号: | 201280067066.1 | 申请日: | 2012-12-27 |
公开(公告)号: | CN104221012A | 公开(公告)日: | 2014-12-17 |
发明(设计)人: | 藤井洋一;石井纯 | 申请(专利权)人: | 三菱电机株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 金春实 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 搜索 装置 方法 | ||
技术领域
本发明涉及一种搜索被电子化的文档的章、节、项等细小的单位的文档搜索装置和文档搜索方法。
背景技术
对家电产品和车载设备等大量的设备附有记载了操作方法和故障时的应对方法等的纸的使用说明书。其中,尤其在具有画面的信息设备中,使用说明书被电子化,能够直接搜索和阅览。由此,无需特意携带纸的文档就能够阅览。另一方面,被电子化的文档的一览性低,难以查找用户想要确认的内容,必须提供搜索功能。
作为在以往的搜索功能中的典型的功能中最简单的方式,有如下GREP搜索方式:利用关键词进行搜索,将搜索到的部分从文档的开头起按出现顺序进行显示。并且有如下逻辑型搜索方式:预先根据文档和提取出的关键词制作搜索索引,利用该搜索索引来进行基于逻辑式的搜索,并显示候选。另外,在逻辑型搜索方式中无法定义表示输入关键词与搜索索引之间的关联度的分数,因此有简单地输入关键词并对其出现频度进行计数来决定分数的最佳匹配搜索方式。并且,有如下统计型搜索方式:根据关键词制作附加了tf·idf(term frequency and inverse document frequency,词频和逆文档频率)等统计性权重的搜索索引,利用与输入关键词的向量距离(内积)进行搜索并显示候选。通过这些搜索方式的提供,能够搜索被电子化的文档,在某种程度上能够阅览用户所要求的部分。
在逻辑型搜索方式中,由于仅搜索与搜索条件严格一致的内容,因此,虽然具有如果运用复杂的搜索条件则容易找到与用户的搜索意图一致的内容这样的优点,但另一方面,存在如果搜索条件有一点不合适则容易导致搜索遗漏这样的缺点。另外,还存在构建复杂的搜索式对于一般用户来说是障碍高这样的缺点。因而,最一般的逻辑型搜索是输入多个关键词并通过OR逻辑运算求出搜索结果来呈现的方式。
另一方面,在最佳匹配搜索方式和统计型搜索方式的情况下,具有无需在关键词中加入逻辑性结构而能够搜索这样的优点,而另一方面,由于文档中的关键词的出现次数被简单地分数化,或者利用与出现倾向相应地加权的值计算分数,因此存在用户难以控制这样的缺点。
鉴于这些方式的优点和缺点,作为有效利用双方的好处的方法,提出了将多个搜索引擎合并来进行处理的方法。例如在专利文献1中公开了如下方法:通过将逻辑型搜索方式和统计型搜索方式、或者最佳匹配搜索方式和统计型搜索方式分别独立地执行并将其结果逻辑性地合并,来进行搜索。
具体地说,从逻辑型搜索方式的搜索引擎仅求得搜索结果候选的信息,从最佳匹配搜索方式和统计型搜索方式的搜索引擎求得搜索结果候选及其分数作为信息。
在将逻辑型搜索方式与统计型搜索方式合起来的情况下,例如仅将逻辑式型搜索结果和统计型搜索结果中文档ID重叠的内容作为最终结果候选,或者将逻辑式型搜索结果和统计型搜索结果的文档ID的全部作为最终结果候选,在此基础上将统计型搜索结果的分数使用于最终结果的排序。
并且,在将最佳匹配搜索方式与统计型搜索方式合并的情况下,使用分数的平均来进行最终结果的排序。
另外,在以往的搜索方式中,提出了如下方法:为了减少由于关键词的表层上的差异而无法搜索的情况,制作好同义词和近义词的表,将搜索条件中的关键词展开为同义词和近义词来进行搜索。
专利文献1:日本特开平10-143530号公报
发明内容
发明要解决的问题
以往的文档搜索装置和文档搜索方法如以上那样构成,因此与通过单独的搜索方式进行搜索时相比,容易得到用户所期望的搜索结果。然而,这些搜索方式中,用于制作搜索索引的关键词的提取对象是搜索对象的文档本身,因此在使用单独的搜索方式的情况和组合使用多个搜索方式的情况下,都是以搜索在文档内出现的关键词为基本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三菱电机株式会社,未经三菱电机株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280067066.1/2.html,转载请声明来源钻瓜专利网。