[发明专利]基于断点法的时空数据指标标定方法及系统在审
申请号: | 202011065129.2 | 申请日: | 2020-09-30 |
公开(公告)号: | CN112163021A | 公开(公告)日: | 2021-01-01 |
发明(设计)人: | 金耀辉;何浩;胡博文;王泽华 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06K9/62 |
代理公司: | 上海恒慧知识产权代理事务所(特殊普通合伙) 31317 | 代理人: | 张宁展 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 断点 时空 数据 指标 标定 方法 系统 | ||
本发明提供了一种基于断点法的时空指标标定方法及系统,将原始数据按照空间尺度进行分类,得到分类后的数据;将分类后的数据进行预处理,得到预处理后的数据;对预处理后的数据进行统计,绘制分布直方图并生成统计特征;根据统计特征,选择合适的断点法,对预处理后的数据进行标杆值生成,得到标杆值;对分布直方图、统计特征和标杆值进行汇总,从而得到时空数据指标标定的最终结果。本发明能够从已有数据本身出发,自动化地将数据进行分段,并且兼顾各段内部的数据的范围和个数尽量相近。同时,对于呈现重尾分布的数据,能够有效考虑尾部数据低频但量大以至于不可忽略甚至需要缩放的特点,对往往不完全符合理论分布的现实数据具有重要意义。
技术领域
本发明涉及时空数据处理技术领域,具体地,涉及一种基于断点法的时空数据指标标定方法及系统,用于项目量化考评标准的参考辅助与自动生成。
背景技术
随着大数据云计算的快速深入发展,海量数据的获取、结构化存储以及批量处理变为现实。对于海量数据,如何化数为宝,挖掘数据本身存在的有价值信息,对未来各行业的发展和社会的进步有重要的意义。
时空数据是指同时具有时间维度和空间维度的数据,现实世界中的数据绝大多数都与具体的地理位置和时间节点有关。对于海量的时空数据,其必然包括时间、空间、专题属性三维信息。在目前海量数据多源融合的现状下,时空数据可以做到快速更新。
时空数据指标标定,过去往往由专家系统利用其领域知识和个人经验进行人工主观标定,从而对时空数据进行分段量化考评。然而,能否客观地反应数据的分布,或者多大程度地映射了数据的分布,以及能否随着需求的增加和技术的发展做到快速迭代更新,都是人工主观标定的痛点所在。
发明内容
本发明针对当前已经存在的时空数据量化考评标准由人工凭借个人经验主观标定,无法保证量化考评分段能够客观地反应数据本身的分布,并且针对实时产生的海量数据无法及时地根据数据分布对量化考评分段进行更新等问题,提出了一种基于断点法的时空数据指标标定方法及系统。
本发明是通过以下技术方案实现的。
根据本发明的一个方面,提供了一种基于断点法的时空数据指标标定方法,包括:
将原始数据按照空间尺度进行分类,得到分类后的数据;
将分类后的数据进行预处理,得到预处理后的数据;
对预处理后的数据进行统计,绘制分布直方图并生成统计特征;
根据统计特征,选择合适的断点法,对预处理后的数据进行标杆值生成,得到标杆值;
对分布直方图、统计特征和标杆值进行汇总,从而得到时空数据指标标定的最终结果。
优选地,所述将原始数据按照空间尺度进行分类,包括:针对包含不同空间信息的时空数据,根据需要选择适当粗细的粒度,按照空间尺度对时空数据进行分类。
优选地,所述将分类后的数据进行预处理预处理,包括:去除重复的数据条目和含有缺失项的数据条目。
优选地,所述统计特征包括:均值、最大值、最小值、不同取值数、唯一值比例、偏度和/或峰度。
优选地,所述对分布直方图、统计特征和标杆值进行汇总,包括:
使用Python的绘图库Matplotlib,以分布直方图为基础,将统计特征以文本形式展示在图表空白处,标杆值以竖直线形式将分布直方图分成几部分,得到时间数据指标标定的考评断点值,即为时空数据指标标定的最终结果。
优选地,根据统计特征,判断数据分布情况;根据数据分布情况,选择断点法如下:
针对近似于正态分布的数据,选取自然断点法对时间数据指标进行自动化分段标定;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011065129.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于眼科局麻手术的胸前支撑架
- 下一篇:一种虚拟人物形象的构建装置和方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置