[发明专利]一种数据需求满足方法有效
| 申请号: | 201810420145.5 | 申请日: | 2018-05-04 |
| 公开(公告)号: | CN108846014B | 公开(公告)日: | 2023-07-25 |
| 发明(设计)人: | 崔占华;左晓栋;王石;杨晨;张弛;刘雨桁;周亚超 | 申请(专利权)人: | 中国信息安全研究院有限公司 |
| 主分类号: | G06F16/9035 | 分类号: | G06F16/9035;G06F16/906;G06F16/9535 |
| 代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
| 地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据 需求 满足 方法 | ||
本发明涉及一种数据需求满足方法,所述方法包括:S1:对数据需求进行分析以获取所述数据需求的分类;S2:基于所述数据需求的分类确定进行数据获取的数据源;S3:从所述数据源获取所需要的数据。本发明能够对数据需求进行多个层次的分析以获取所述数据需求的分类,基于所述分类来挑选进行数据获取的获取源,使得容易挑选出和主题密切相关的数据,大大的提高了精准度。
【技术领域】
本发明属于数据分析领域,尤其涉及一种数据需求满足方法。
【背景技术】
随着互联网技术的快速发展,大数据的应用越来越多。在大数据场景下,数据采集的需求逐渐增加。在现有技术中,当需要某种主题的数据时,多是通过非定向爬虫从互联网中获取海量数据,然后以获取到的海量数据为基础,通过复杂的数据匹配算法,筛选出与主题相关的数据。这种方法存在一定的缺点,基础数据的数据量太大,非相关数据占比较高,往往很难正确挑选出与主题密切相关的数据,精准度较低。在大数据时代,呈现的数据价值密度较低。基于上述诸多问题,现在亟需一种新的数据需求满足方法,本发明能够对数据需求进行多个层次的分析以获取所述数据需求的分类,基于所述分类来挑选进行数据获取的获取源,使得容易挑选出和主题密切相关的数据,大大的提高了精准度。
【发明内容】
为了解决现有技术中的上述问题,本发明提出了一种数据需求满足方法,该方法包括如下步骤:
S1:对数据需求进行分析以获取所述数据需求的分类;
S2:基于所述数据需求的分类确定进行数据获取的数据源;
S3:从所述数据源获取所需要的数据。
进一步的,所述步骤S1具体为,将数据需求进行初级划分以获取初级需求元素,基于所述初级需求元素获取所述数据需求的初级分类;将所述数据需求和历史数据需求作比较以获取所述数据需求的高级分类;基于所述初级分类和高级分类确定所述数据需求的分类。
进一步的,所述将数据需求进行初级划分以获取初级需求元素,具体为:将所述数据需求按照最小划分原则划分成一个或者多个初级需求元素。
进一步的,所述按照最小划分原则划分,具体为:所述数据需求为需求语句,将所述需求语句划分成多一个或多个关键词,并剔除所述需求语句中的语气词和承接词;并将所述关键词作为初级需求元素。
进一步的,所述基于所述初级需求元素获取所述数据需求的初级分类,具体为:分别确定所有初级需求元素对应的初级分类,获取对应初级需求元素最多的初级分类作为所述数据需求的初级分类。
进一步的,每个初级需求元素都有其对应的初级分类。
进一步的,所述将所述数据需求和历史数据需求作比较以获取所述数据需求的高级分类,具体为:计算所述数据需求和每个历史数据需求之间的相似度,当所述相似度大于等于第一相似度阈值时,将所述历史数据需求的分类作为所述数据需求的高级分类。
进一步的,所述计算所述数据需求和每个历史数据需求之间的相似度,具体为:获取所述数据需求和所述每个历史数据需求之间包含相同的字的个数N,获取所述数据需求的长度L1和所述每个历史数据需求的长度L2,基于下式计算所述相似度SIM;SIM=N/(1+(L2-L1)2)。
进一步的,所述基于所述初级分类和高级分类确定所述数据需求的分类,具体为:将所述历史数据需求按照出现次数从大到小排序,获取所述初级分类和高级分类在所述排序中的位置,将所述初级分类和高级分类中排序位置靠前的分类作为所述数据需求的分类。
本发明的有益效果包括:能够对数据需求进行多个层次的分析以获取所述数据需求的分类,基于所述分类来挑选进行数据获取的获取源,使得容易挑选出和主题密切相关的数据,大大的提高了精准度。
【附图说明】
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国信息安全研究院有限公司,未经中国信息安全研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810420145.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





