[发明专利]结构化文档检索装置和程序在审

专利信息
申请号: 201310057197.8 申请日: 2013-02-22
公开(公告)号: CN103425719A 公开(公告)日: 2013-12-04
发明(设计)人: 小岛要 申请(专利权)人: 株式会社日立制作所
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京银龙知识产权代理有限公司 11243 代理人: 许静;郭凤麟
地址: 日本*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 结构 文档 检索 装置 程序
【权利要求书】:

1.一种结构化文档检索装置,其特征在于,具备:

处理器,其执行程序;

第一存储区域,其存储程序;

第二存储区域,其存储满足树结构条件的结构化文档以及对该文档附加的注释数据;

文档结构列表构筑部,其针对使根据上述结构化文档的标签的包含关系和上述注释数据的标签的包含关系单独得到的DOM树的根要素通用化的结构,分配结构化文档的文本,生成文本共有DOM树;

输入装置,其用于输入检索查询;

地址路径检索部,其从上述文本共有DOM树中检索与作为上述检索查询提供的位置路径符合的要素。

2.一种结构化文档检索装置,其特征在于,具备:

处理器,其执行程序;

第一存储区域,其存储程序;

第二存储区域,其存储满足树结构条件的结构化文档以及对该文档附加的注释数据;

文档结构列表构筑部,其针对使根据上述结构化文档的标签的包含关系和上述注释数据的标签的包含关系单独得到的DOM树的根要素通用化的结构,加入不同的DOM树的标签之间的包含关系,并且针对该加入后的结构,分配结构化文档的文本,生成DOM DAG;

输入装置,其用于输入检索查询;

地址路径检索部,其从上述DOM DAG中检索与作为上述检索查询提供的位置路径符合的要素。

3.根据权利要求2所述的结构化文档检索装置,其特征在于,具备:

路径DAG要素生成登录部,其生成集合了多个上述DOM DAG的结构的路径DAG;

转置索引构筑部,其构筑由上述路径DAG的要素的ID即路径DAG ID、处于对应关系的一个或多个上述DOM DAG的要素的位置信息构成的转置索引,

上述位置路径检索部根据上述路径DAG和上述转置索引,计算与作为检索查询的位置路径符合的要素出现的位置。

4.根据权利要求2所述的结构化文档检索装置,其特征在于,具备:

路径DAG要素生成登录部,其生成集合了多个上述DOM DAG的结构的路径DAG;

检索索引构筑部,其构筑保存上述路径DAG、比特列、存储与上述DOMDAG的各要素对应的位置路径的种类的数列数据的检索索引,

上述位置路径检索部根据上述路径DAG计算与作为检索查询的位置路径对应的路径DAG ID,通过上述比特列和上述数列数据的扫描,计算通过计算求出的上述路径DAG ID确定的要素出现的位置。

5.根据权利要求2所述的结构化文档检索装置,其特征在于,具备:

路径DAG要素生成登录部,生成集合了多个上述DOM DAG的结构的路径DAG;

检索索引构筑部,其构筑保存上述路径DAG、比特列、存储与上述DOMDAG的各要素对应的位置路径的种类的数列数据的检索索引;

简洁比特矢量/小波树生成部,其根据上述检索索引保存的上述比特列和上述数列数据生成简洁比特矢量和小波树,

上述位置路径检索部根据上述路径DAG计算与作为检索查询的位置路径对应的路径DAG ID,通过对上述简洁比特矢量或上述小波树的等级运算和选择运算,计算通过计算求出的上述路径DAG ID确定的要素出现的位置。

6.根据权利要求5所述的结构化文档检索装置,其特征在于,

具备:扩展小波树构筑部,其在通过追加注释数据将登录在上述小波树中的数列的一部分数字置换为其他数列的情况下,将上述小波树变换为包含针对该小波树的变更信息的扩展小波树,

上述位置路径检索部在上述等级运算和选择运算中使用上述扩展小波树。

7.一种程序,其特征在于,使计算机执行以下的处理:

针对使根据满足树结构条件的结构化文档的标签的包含关系和对该文档附加的注释数据的标签的包含关系单独得到的DOM树的根要素通用化的结构,分配结构化文档的文本,生成文本共有DOM树的第一处理;

从上述文本共有DOM树中检索与作为上述检索查询而提供的位置路径符合的要素的第二处理。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310057197.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top