[发明专利]基于网络挖掘的遥感产品检索限定项语义扩展方法有效

专利信息
申请号: 201610048113.8 申请日: 2016-01-15
公开(公告)号: CN105786964B 公开(公告)日: 2019-08-09
发明(设计)人: 何建军;李玉堂;陈婷;关盛勇;王西亚;高宇;武文斌;高松峰 申请(专利权)人: 二十一世纪空间技术应用股份有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/338
代理公司: 中国兵器工业集团公司专利中心 11011 代理人: 王雪芬
地址: 100096 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 网络 挖掘 遥感 产品 检索 限定 语义 扩展 方法
【权利要求书】:

1.一种基于网络挖掘的遥感产品检索限定项语义扩展方法,包括如下步骤:

S1、将查询内容的限定项输入搜索引擎,对网络搜索结果进行抽取,抽取每条记录的内容简介形成语段,顺序组成摘录篇章;

同时,抽取每条记录的公开时间,在无公开时间的情况下抽取文档建立时间,定义时间规范格式,将公开时间或文档建立时间按照时间规范格式转换作为基准参照时间,并将基准参照时间记录在其对应的内容简介语段中;若某条记录无公开时间和文档建立时间,或者公开时间、文档建立时间不能按照时间规范格式转换,则其对应的内容简介语段无基准参照时间;

S2、对摘录篇章进行分词处理,识别分词中时间词和空间词,将时间词形成基本时间表达,并标注基本时间表达、空间词;

S3、对没有基准参照时间的语段,判定已标注的基本时间表达中是否有与时间规范格式匹配的基本时间表达,若有,将其设为该语段的基准参照时间;若没有,删除该语段;

对含有基准参照时间的语段,将已标注的基本时间表达转换为时间规范格式,若转换时基本时间表达不完整,则缺失部分填充该语段的基准参照时间;

S4、统计规范的时间表达和空间词,将最高频出现的时间表达和空间词作为语义扩展结果。

2.如权利要求1所述的遥感产品检索限定项语义扩展方法,其特征在于,所述步骤S1包括如下步骤:

S11、建立网络检索抽取信息表,网络检索抽取信息表包括搜索引擎域名、搜索引擎地址模板、摘要内容节点标识、公开时间标识、文档建立时间标识、抽取页面数量、检索结果页面数量标识;

所述搜索引擎域名是搜索类网站在管理认证机构注册的用于标识互联网地址的字符串,该字符串供遥感产品限定项检索的网络地址;

所述搜索引擎地址模板是搜索引擎对应的检索信息地址输入结构,该模板中使用通配符标识动态输入信息;

所述摘要内容节点标识是检索结果页面结构中标识内容摘要的字符;

所述公开时间标识是检索结果页面结构中标识文档公开时间的字符;

所述文档建立时间标识是检索结果页面结构中标识文档公开时间的字符;

所述抽取页面数量是用户期望将前多少条检索结果作为语义扩展源;

所述检索结果页面数量标识是检索结果条数超过一页可显示内容时,翻页访问地址标识符;

S12、获取搜索引擎的统一资源定位符编码方式,将检索限定项按照编码方式进行转码获取统一资源定位符编码,并将转译后的统一资源定位符编码替换搜索引擎地址模板中的通配符;按照网络检索抽取信息表中抽取页面数量,写入检索结果页面数量标识内;

S13、将检索结果页面解析为DOM树的形式;

S14、按照网络检索抽取信息表中的摘要内容节点标识,抽取该条记录的文本内容作为内容简介,将该条记录的内容简介形成语段;

S15、按照网络检索抽取信息表中的摘要内容节点标识对应的公开时间标识或文档建立时间标识,抽取该条记录的时间,定义时间规范格式,将公开时间或文档建立时间按照时间规范格式转换作为基准参照时间,并将基准参照时间记录在其对应的内容简介语段中;若该条记录无公开时间和文档建立时间,或者公开时间、文档建立时间不能按照时间规范格式转换,则其对应的内容简介语段无基准参照时间;

S16、循环每个检索结果页面,将语段顺序保存为所有检索结果的摘录篇章。

3.如权利要求1或2所述的遥感产品检索限定项语义扩展方法,其特征在于,步骤S4中所述时间表达的语义扩展步骤如下:

S41、对规范化的时间按照单位由大到小建立数组;

S42、比较每个相同数组出现的频率,出现频率最高的数组为时间扩展结果;若出现频率相同时,则按照由大到小时间单位统计出现的频率,每个单位出现频率最高的数据作为该对应该单位的结果,形成最终时间扩展结果;若按时间单位仍无法获得唯一结果时,取第一个出现的时间表达作为时间扩展结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于二十一世纪空间技术应用股份有限公司,未经二十一世纪空间技术应用股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610048113.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top