[发明专利]古籍文档检索系统中检索词在古籍快照图片上进行高亮标识的方法无效
申请号: | 200610086873.4 | 申请日: | 2006-06-22 |
公开(公告)号: | CN101093545A | 公开(公告)日: | 2007-12-26 |
发明(设计)人: | 冯建康;王宏源;赵锋 | 申请(专利权)人: | 王宏源 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100020北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 古籍 文档 检索系统 检索 快照 图片 进行 标识 方法 | ||
技术领域
本发明涉及一种古籍文档检索系统中检索字/词在古籍快照图片上进行高亮标识的方法。
背景技术
信息检索系统能够帮助用户在海量信息中找到自己需要得有用信息。信息积累不仅体现在有不断有新信息的加入,而且中国几千年来积累的主要保存在纸质上的信息也不断被电子化。近几年出现越来越多的对古代纸本知识的电子化信息。这些信息一部分由图片扫描设备将古籍扫描,以图片形式存储于计算机中。通过对古籍电子化处理,既利于对古籍原本的保存,又利于广大学者对其进行研究。近几年,大部分古籍电子化系统通过OCR光学文字辨识或者人工对这些古籍进行整理,将其中文字录入到计算机中,形成古籍文本文档。对古籍文本文档的录入,方便了对古籍内容的编辑,拷贝,传输。同时也实现了对这些古籍电子化文档的全文检索。这更进一步方便了古籍研究者对古籍文档的查阅。
很多学者在使用含有古籍的数据库时,常常需要查看其对应的原始的古籍原始页面的快照图片。当前的古籍数字化检索系统往往通过用户的查询词匹配到古籍快照的某一页,然后将该页古籍图片返回给检索用户。此时用户往往需要对图片上的文档逐字浏览,用来找到与自己检索内容相关的部分。由于古籍原始页面快照中的内容往往并不分段落,也不带标点,对今人而言不易阅读,因此用户在古籍页面快照图片上定位到与自己检索内容相关的位置时往往比较吃力。在文本检索系统中,系统会在结果文本中对出现的用户检索词进行高亮标识,用以帮助用户更快定位自己所关注的内容。因此,在古籍图片浏览时也急需一种类似的方法,使检索系统能够自动标识出用户检索字/词在古籍原始页面快照图片上与相关文字内容匹配命中的区域。
发明内容
鉴于上述分析,本发明的主要目的是提供一种古籍文档检索系统中检索词在古籍快照图片上进行高亮标识的方法。该方法通过捕捉与记录古籍原始页面快照图片中每个文字字符的位置信息,按照一定顺序使其与OCR光学辨识或者人工录入文档的每个录入字符相对应。在检索时,首先对用户的检索字符串进行分词处理,形成分词结果字符串。接下来计算分词结果字符串与检索结果文档中相匹配的每个字符的位置,形成匹配位置序列。将这些位置序列作为索引,得出其对应的坐标序列。在显示快照图片时,根据坐标序列在快照图片上进行高亮标识,从而达到将查询字符串在古籍快照图片上进行高亮标识的效果。
该方法的实现主要包括两步:第一步完成坐标序列的生成;第二步完成查询字符串在快照图片上的高亮显示。
坐标序列生成的具体实现方法是:
A、根据快照图片将其中内容信息以文本形式录入计算机。
B、以步骤A中字符录入的顺序获取古籍快照图片上每个字符的坐标信息,将其存入计算机。
查询字符串在快照图片上的高亮显示方法是:
A、将查询字符串进行分词处理,形成分词结果字符串。分词结果字符串为由词(包括单个字的词)组成的序列。
B、读入要高亮显示的快照图片对应的文本文档。计算分词结果字符串中的词序列中每个词在文本文档中存在的位置。形成位置序列。
C、读入要高亮显示的快照图片对应的字符坐标序列。根据B步形成的位置序列得到相应位置字符在图片上的坐标,形成命中坐标序列。
D、根据C步形成的命中坐标序列,在显示图片时,在图片上相应的坐标进行标识。
本发明的特点:
本发明通过坐标标识的方法,使得在古籍检索系统中,实现对查询字符串在古籍原始快照图片中进行高亮标识。大大提高了用户在古籍图片上查找自己关注内容时的查找速度。
具体实施方式
本发明的主要目的是提供一种古籍文档检索系统中检索词在古籍快照图片上进行高亮标识的方法。
具体的实施方法如下:
1、生成坐标序列
A、生成古籍文本记录。一张古籍页面快照图片对应一条记录。古籍文本记录的信息包括记录编号、图片位置、文本内容以及与之对应的坐标信息序列。其中文本内容为按照阅读顺序将古籍快照上面的文本字符录入计算机后形成的文本。其文本编码采用Unicode编码,并且含有四字节字符,以符合中国古代典籍使用汉字的具体情况。坐标序列为文本内容中每个字符在图片中出现时的坐标。每个字符的坐标为覆盖字符的最小矩形的坐标。包括矩形左上顶点在图片中的坐标,与右下顶点在图片中的坐标。该坐标序列的顺序要与文本内容中的字符顺序保持一致。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王宏源,未经王宏源许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610086873.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种省力独轮推车
- 下一篇:一种保护电脑软件或网络信息安全的系统