[发明专利]结构化文档检索装置和程序在审
申请号: | 201310057197.8 | 申请日: | 2013-02-22 |
公开(公告)号: | CN103425719A | 公开(公告)日: | 2013-12-04 |
发明(设计)人: | 小岛要 | 申请(专利权)人: | 株式会社日立制作所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;郭凤麟 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结构 文档 检索 装置 程序 | ||
技术领域
本发明涉及一种根据标签的结构和/或字符串数据检索由结构化语言记载的文档(以下称为“结构化文档”)以及以任意的形式附加了注释数据的结构化文档的结构化文档检索装置和通过计算机实现其功能的程序。
背景技术
XML(Extensible Markup Language:可延伸性标志语言)是能够对文本记载结构信息的数据格式,通过使用被称为标签的“<”、“>”围住的字符串,能够向文本内记载结构信息。XML能够通过将标签记载为嵌套状来表现层级状的树结构,能够通过标签的追加/删除来变更层级状的树结构。因此,作为财务信息的记录、专利说明书的记录、电子商务交易中的数据交换、软件的文件形式的格式而广泛使用XML。以下,将使用XML记载的文档称为XML文档。在XML文档中,能够在检索条件中使用结构和文本双方来进行检索。在XML文档的检索查询方式中,有W3C推荐的XPath等。
另一方面,针对一般的文本数据,作为用于附加注释的技术之一,有UIMA(Unstructured Information Management Architecture非结构化信息管理架构)。UIMA是为了管理没有结构化的文档等数据而使用的技术,提供一种能够向文档附加注释标签的平台。UIMA与XML不同,不需要以满足树结构条件的形式附加标签。因此,UIMA用于作为计算机得到的文法结构分析的结果,如向文档中的技术上重要的部分等进行标记那样,保存在结构之间未必需要满足树结构关系的文档结构信息。
但是,想到在结构之间不保证满足树结构关系的文档结构信息会逐渐增加。因此,要求一种不受树结构关系约束,能够通过结构条件和文本条件进行检索的技术。
但是,作为计算机通过自动提取得到的结果(例如文法结构的分析结果、基于文本的含义信息(例如重要技术、效果等)的文档结构的分析结果)或手动进行标记的结果,该结构信息不限于满足树结构条件。因此,针对包含不满足树结构条件的结构信息的文档,无法利用现有的XML检索方法。
根据以上理由,在结构上没有制约的标签信息的检索中,使用了根据UIMA准备的检索功能(专利文献1)。但是,在该检索方式中,没有考虑到基于标签的包含关系的层级结构。因此,在UIMA所准备的检索功能中,被指定为检索查询的文本只能执行验证是否包含在各标签中的布尔检索。
结果在对XML文档准备的现有的检索功能或根据UIMA准备的现有的检索功能中,针对带有注释的XML文档,无法执行考虑到XML的结构条件和注释的结构条件双方的检索。
【专利文献1】美国专利申请公开第2004/0243560号说明书
【非专利文献1】清水敏之、鬼塚真、江田毅晴、吉川正俊、XMLデ一タの管理とストリ一ム処理に関する技術、電子情報通信学会論文誌D J9O-D(2):159-184、2007
【非专利文献2】G.Navarro and V.Makinen、Compressed full-text indexes、ACM Computing Surveys39(1)、2007
发明内容
本发明考虑到上述的问题点,在由标签的结构满足树结构条件的结构化文档和与该文档对应的任意的注释的结构信息形成的结构不满足树结构条件的情况下,也能够进行考虑了结构条件和文本双方的检索。
本说明书包含用于解决上述问题的多个发明。作为其中一例的发明具备:处理器,其执行程序;第一存储区域,其存储程序;第二存储区域,其存储满足树结构条件的结构化文档以及对该文档附加的注释数据;文档结构列表构筑部,其针对使根据上述结构化文档的标签的包含关系和上述注释数据的标签的包含关系单独得到的DOM(Document Object Model:文档目标模型)树的根要素通用化的结构,分配结构化文档的文本,生成文本共有DOM树;检索处理部,其从文本共有DOM树中检索与作为检索查询提供的位置路径符合的要素。
根据本发明,能够实现通过包含以任意的形式附加的注释的结构信息和文本双方进行的检索。通过以下的实施方式的说明,能够了解上述以外的问题、结构和效果。
附图说明
图1-1是表示结构化文档检索装置的结构例的图(第一实施例)。
图1-2是表示存储在主存储装置中的程序和数据的一个例子的图(第一实施例)。
图2是说明注释组的一个例子的图(各实施例通用)。
图3是表示文本共有DOM树的一个例子的图(各实施例通用)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310057197.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种熔岩蜡灯
- 下一篇:一种用于标牌的外照式太阳能照明装置