[发明专利]一种多源异构农业农村大数据分类方法在审
| 申请号: | 202211056658.5 | 申请日: | 2022-08-31 |
| 公开(公告)号: | CN115495576A | 公开(公告)日: | 2022-12-20 |
| 发明(设计)人: | 李照;谢润中;褚海涛 | 申请(专利权)人: | 上海飞未信息技术有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/284;G06Q50/02;G06Q50/26 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 201108 上海市闵行*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 多源异构 农业 农村 数据 分类 方法 | ||
本发明涉及农业农村大数据技术领域,具体揭示了一种多源异构农业农村大数据分类方法,包括如下步骤:S1、首先根据数据源的配置,读取源数据的元数据信息;S2、然后根据源表名称和描述信息,利用已训练好的自然语言处理模型。本发明通过使用自然语言处理分类模型Fasttext、TextCNN、SVM和随机森林完成对表描述和字段描述信息进行分类预测,结合权重计算模型进行分类权重计算,获得精准的标准数据集(表)的推荐和标准数据项(字段)的推荐,达到了自动化效率高的优点,解决了现有的农村大数据读取自动化效率低,往往数据读取都是人为处理,这样容易出错和主观分类不同意,而且效率比较低,因此不便于人们使用的问题。
技术领域
本发明涉及农业农村大数据技术领域,具体为一种多源异构农业农村大数据分类方法。
背景技术
随着生产力的提高和社会发展,新一轮科技革命、产业变革方兴未艾,云计算、大数据、区块链、物联网、智联网等新一代信息技术加快应用,深刻改变生产生活方式,引发经济格局和产业形态深度变革,形成发展数字经济的普遍共识,数字农业农村既是乡村振兴的战略方向,也是建设数字中国的重要内容,但是数据很多情况只在很小的范围内垂直交换,导致无法发挥应数据有的价值,迫切需要进行数据整合,按照统一运行网络、统计基础设施、统一数据资源、统一服务平台、统一安全策略、统一标准规范的总体要求,建立统一的农业农村大数据平台。
本申请人意识到在建立统一农业农村大数据平台的过程一般需要数据读取、数据处理、数据治理、数据组织和数据服务等过程,而首先需要处理的是数据读取汇聚,由于以前信息化建设时都是由各个业务职能部门进行信息化建设,没有统一的建设标准,必然存在数据标准不统一,数据表示方式各种各样的问题。
数据读取时,源数据和标准数据的对应问题会需要大量的繁琐调查和确认处理,而人为处理由于存在个体差异,容易出错和主观分类不统一,而且效率相对比较低下,随着计算机技术和机器学习和人工智能技术的发展,可以很好地进行数据分类推荐,辅助人进行数据识别和分类,降低主观影响数据分类错误。
本发明主要处理两个方面的问题:第一个是多源异构的数据读取问题;另一个是根据接入数据元数据信息(从数据源获取或者额外补充)自动匹配标准数据的处理,标准数据处理包括数据集(表)分类推荐,数据项(数据元)分类推荐,其中多源异构接入底层使用插件技术保证数据异构数据的灵活性和可扩展性,整合了开源的Datax完成数据集成,数据集分类推荐和数据项分类推荐则采用机器学习方法与规则处理相结合的方法处理,目的是为农业农村大数据平台数据数据读取处理自动化提供辅助手段,提高数据读取的自动化水平,为农业农村大数据平台提供一种数据读取自动化分类与匹配的方法,促进农业农村信息化和大数据平台化的进程。
发明内容
针对现有技术的不足,本发明提供一种多源异构农业农村大数据分类方法,具备自动化效率高的优点,解决了现有的农村大数据读取自动化效率低,往往数据读取都是人为处理,这样容易出错和主观分类不同意,而且效率比较低,因此不便于人们使用的问题。
本发明的一种多源异构农业农村大数据分类方法,包括如下步骤:
S1、首先根据数据源的配置,读取源数据的元数据信息;
S2、然后根据源表名称和描述信息,利用已训练好的自然语言处理模型,识别标准数据集,一般情况下推荐5~10个标准数据集;
S3、此时根据推荐的数据集,进一步做源表字段名称、类型、长度、描述等处理,利用已训练好的字段分类模型识别出标准字段;
S4、综合标准字段和标准数据集的识别权重值,进行综合计算,得出最后的综合权重并排序推荐标准数据集和标准数据字段。
本发明的一种多源异构农业农村大数据分类方法,所述多源异构数据读取采用底层插件技术,针对不同的数据源采用不同的独立插件读取数据和元数据补充信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海飞未信息技术有限公司,未经上海飞未信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211056658.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于转发信标的游标式定位系统与方法
- 下一篇:仿生大兜虫生态机器人
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





