[发明专利]基于k-近邻的水利普查行业能力数据融合方法在审
申请号: | 201510056780.6 | 申请日: | 2015-02-03 |
公开(公告)号: | CN104657441A | 公开(公告)日: | 2015-05-27 |
发明(设计)人: | 王继民;张新华 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210024 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 近邻 水利 普查 行业 能力 数据 融合 方法 | ||
技术领域
本发明涉及信息处理技术,具体涉及一种基于k-近邻的水利普查行业能力数据融合方法。
背景技术
第一次全国水利普查主要查清了中华人民共和国境内(未含香港、澳门特别行政区和台湾地区)的河流湖泊、水利工程、经济社会用水、河流湖泊治理保护、水土保持、水利行业能力建设、灌区及地下水等8大项基础信息,为加强水利基础设施建设与管理、实行最严格的水资源管理制度等提供了科学权威的数据支撑。
水利单位是结合水利工程设施特性与行业发展规模等各类管理信息,分析水利单位与水利工程设施、资产、从业人员等发展状况的关键节点。因此,厘清水利单位,通过建立水利工程对象的工程管理单位与行业能力的水利单位之间的匹配关系,实现普查水利工程数据与行业能力数据融合,对科学研判水利管理能力和水平具有重要的意义。
由于不同专业普查的填报范围规定不同、规范性要求存在差异,因此部分水利单位普查数据存在组织机构代码不完整、重复,以及不同专业填报的水利单位名称不能完全一致等问题,同时由于水利普查数据量大,直接完全通过人工方式建立匹配关系费时费力。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于k-近邻的水利普查行业能力数据融合方法。实现水利普查中行业能力单位与水利工程管理单位信息的一致匹配,实现水利工程和行业能力普查数据的有效衔接,为分析水利发展现状,制定水利及经济社会发展规划等提供支撑。所谓数据融合就是利用计算机技术将来自多个传感器或多源的观测信息进行分析、综合处理,从而得出决策和估计任务所需的信息的处理过程。
其中,数据融合包含三个层次,即,数据层融合、特征层融合以及决策层融合。数据层融合是低层次的融合,直接在采集到的原始数据层上进行的融合,在各种传感器的原始测报未经预处理之前就进行数据的综合与分析。特征层融合属于中间层次的融合,它先对来自传感器的原始信息进行特征提取(特征可以是目标的边缘、方向、速度等),然后对特征信息进行综合分析和处理;特征层融合的优点在于实现了可观的信息压缩,有利于实时处理,并且由于所提取的特征直接与决策分析有关,因而融合结果能最大限度的给出决策分析所需要的特征信息。决策层融合通过不同类型的传感器观测同一个目标,每个传感器在本地完成基本的处理,其中包括预处理、特征抽取、识别或判决,以建立对所观察目标的初步结论。然后通过关联处理进行决策层融合判决,最终获得联合推断结果。
本发明基于数据挖掘中的k-近邻搜索完成数据融合。所谓k-近邻搜索是指在对象数据集S中查询与指定查询对象q最相似的k个对象。k-近邻是相似性搜索的一种,相似性搜索就是在对象数据集S中查询与指定查询对象q相似的对象。相似性搜索一般包括两类任务:一是k-近邻查询(k Nearest Neighbor Query,kNN);另一种是范围查询(Range Query),即在对象数据集S中查询与指定查询对象q相似距离小于等于ε的所有对象。在相似性查询中,通常使用相似距离度量D来计算两个对象的距离,即对象s与查询对象q的距离被描述为D(s,q)。对于范围查询即是查询所有满足D(s,q)≤ε的对象s。在k-近邻查询过程中,对对象s按照D(s,q)排序,前k个即为q的k-近邻。目前常见的相似距离度量有欧式距离,最长公共子串,编辑距离等。
技术方案:本发明的一种基于k-近邻的水利普查行业能力数据融合方法,包括以下步骤:
(1)对水利普查行业能力数据以及水利工程数据中的单位名称进行逐级分解;
(2)选择水利普查中行业能力数据和水利工程数据样本,并建立样本中水利工程管理单位和行业能力单位的匹配;
(3)基于步骤(2)中的样本训练编缉距离权重;
(4)对步骤(1)中分解出的单位名称信息以带权重的编缉距离作为相似性度量距离,以行业能力单位名称为数据集,以水利工程管理单位名称为查询集,进行k-近邻相似搜索,并结合人工对数据进行匹配。
进一步的,所述步骤(1)中的行业能力数据以及水利工程数据中的单位名称被逐级分解成行政地名信息和精简的单位名称;且对不包含行政区划名的单位名称直接分解成非精简单位名。
进一步的,所述步骤(2)中选择水利普查中行业能力数据和水利工程数据样本(例如可以选择10%的水利普查数据作为样本),并通过组织机构代码、普通的编辑距离以及人工匹配等方式,建立样本中水利工程管理单位名称和行业能力单位名称之间的匹配,作为编辑距离权重学习的数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学;,未经河海大学;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510056780.6/2.html,转载请声明来源钻瓜专利网。