[发明专利]一种多源异构农业农村大数据分类方法在审
| 申请号: | 202211056658.5 | 申请日: | 2022-08-31 |
| 公开(公告)号: | CN115495576A | 公开(公告)日: | 2022-12-20 |
| 发明(设计)人: | 李照;谢润中;褚海涛 | 申请(专利权)人: | 上海飞未信息技术有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/284;G06Q50/02;G06Q50/26 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 201108 上海市闵行*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 多源异构 农业 农村 数据 分类 方法 | ||
1.一种多源异构农业农村大数据分类方法,其特征在于:包括如下步骤:
S1、首先根据数据源的配置,读取源数据的元数据信息;
S2、然后根据源表名称和描述信息,利用已训练好的自然语言处理模型,识别标准数据集,一般情况下推荐5~10个标准数据集;
S3、此时根据推荐的数据集,进一步做源表字段名称、类型、长度、描述等处理,利用已训练好的字段分类模型识别出标准字段;
S4、综合标准字段和标准数据集的识别权重值,进行综合计算,得出最后的综合权重并排序推荐标准数据集和标准数据字段。
2.根据权利要求1所述的一种多源异构农业农村大数据分类方法,其特征在于:所述多源异构数据读取采用底层插件技术,针对不同的数据源采用不同的独立插件读取数据和元数据补充信息。
3.根据权利要求2所述的一种多源异构农业农村大数据分类方法,其特征在于:所述插件实现逻辑模型中包括Job、Task两个维度,通过将Job进行Task拆分,然后将Task合并到TaskGroup进行运行,其中Job是DataX用以描述从一个源头到一个目的端的同步作业,是DataX数据同步的最小业务单元,比如:从一张Mysql的表同步到Odps的一个表的特定分区,Task是为最大化而把Job拆分得到的最小执行单元,比如:读一张有1024个分表的Mysql分库分表的Job,拆分成1024个读Task,用若干个并发执行。
4.根据权利要求1所述的一种多源异构农业农村大数据分类方法,其特征在于:所述标准数据集识别处理主要是根据表中文名称和表描述等信息进行分词处理,获得所述待分类文本对应的分词集合,根据预设的词向量词典对表名称和表描述信息分词集合进行向量化处理,获得表名称和表描述分类文本对应的词向量集合,针对表名称词向量和表描述词向量分别计算出与标准数据集的描述的Fasttext、Textcnn和SVM的相似权重,并推荐出数据标准数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海飞未信息技术有限公司,未经上海飞未信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211056658.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于转发信标的游标式定位系统与方法
- 下一篇:仿生大兜虫生态机器人
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





