[发明专利]一种基于行业差异的涉镉企业名录构建系统及构建方法在审
| 申请号: | 202010826881.8 | 申请日: | 2020-08-17 |
| 公开(公告)号: | CN111913970A | 公开(公告)日: | 2020-11-10 |
| 发明(设计)人: | 雷梅;魏长河 | 申请(专利权)人: | 中国科学院地理科学与资源研究所 |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/215;G06F16/29;G06F16/951;G06F16/9532 |
| 代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 张可 |
| 地址: | 100101 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 行业 差异 企业 名录 构建 系统 方法 | ||
1.一种基于行业差异的涉镉企业名录构建系统,其特征在于,所述的涉镉企业名录构建系统包括涉镉行业类型确定模块、爬取模块、补充模块、整合清洗模块和涉镉行业企业名录形成模块;所述的涉镉行业类型确定模块用于确定具体涉镉行业类型;所述的爬取模块用于在确定具体涉镉行业类型的基础上,爬取国家及地方生态环境保护相关职能部门网上公开的各类有关涉镉企业数据信息,并进行格式化处理;所述的补充模块用于以国家工商征信系统和第三方数据集作为涉镉企业信息网络大数据爬取的数据源,并通过确定的涉镉行业类型及检索关键词爬取得到涉镉行业企业补充名录;所述的整合清洗模块用于基于网络大数据提取的补充数据与经部门公开数据完善的全国涉镉企业名录信息做进一步整合,对整合得到的数据集进行数据的清洗;所述的涉镉企业名录形成模块用于按照统一设定的数据结构实现数据标准化,并结合企业所在地址和网络地图POI信息,获取空间位置缺失涉镉企业初步的经纬度信息,并按照项目统一的空间信息数学基础进行坐标系转换,至此形成初步的具有空间属性的涉镉企业名录。
2.根据权利要求1所述的涉镉企业名录构建系统,其特征在于,所述的数据的清洗包括去重、空间位置纠偏和仅有经销业务的无关企业的排除。
3.根据权利要求2所述的涉镉企业名录构建系统,其特征在于,所述的数据的清洗的步骤为:首先进行无监督清洗,再进行有监督清洗。
4.根据权利要求3所述的涉镉企业名录构建系统,其特征在于,所述的无监督清洗是预先定义好数据清洗算法,由计算机自动执行算法,对数据集进行清洗,然后产生清洗报告。
5.根据权利要求3所述的涉镉企业名录构建系统,其特征在于,所述的无监督清洗包括删除经营范围中涉及不包括、不含、不涉及、排除、除去、脱硫、无磷、无铅的企业;删除销售企业,包括企业名称及经营范围中包含销、购、易、出口,同时不包含采、选、加工、生产、冶炼、制造字样的企业。
6.根据权利要求3所述的涉镉企业名录构建系统,其特征在于,所述的有监督清洗是在领域专家的指导下,分析收集数据,手工去除明显的噪声数据和重复记录,判断并填补缺值数据。
7.根据权利要求1所述的涉镉企业名录构建系统,其特征在于,所述的涉镉行业包括涉镉原料行业和涉镉杂质行业;所述的涉镉原料行业是将镉作为原料之一的生产企业,所述的涉镉杂质行业是在生产过程中镉作为杂质出现的涉镉行业。
8.根据权利要求7所述的涉镉企业名录构建系统,其特征在于,所述的涉镉原料行业包括镍镉电池或太阳能电池生产、含镉颜料、塑料、玻璃、陶瓷生产、镉合金制造以及镀镉行业企业。
9.根据权利要求7所述的涉镉企业名录构建系统,其特征在于,所述的涉镉杂质行业包括有色金属矿采选和冶炼、钢铁选冶、化石燃料、水泥以及磷肥的生产制造。
10.一种基于行业差异的涉镉企业名录构建方法,其特征在于,包括以下步骤:
1)确定具体涉镉行业:对于涉镉行业,主要存在两大类:一类是涉镉原料行业,二是涉镉杂质行业;所述的涉镉原料行业是将镉作为原料之一的生产企业;所述的涉镉杂质行业是在生产过程中镉作为杂质出现的涉镉行业;所述的涉镉原料行业包括镍镉电池或太阳能电池生产、含镉颜料、塑料、玻璃、陶瓷生产、镉合金制造以及镀镉行业企业;所述的涉镉杂质行业包括有色金属矿采选和冶炼、钢铁选冶、水泥以及磷肥的生产制造;
2)在确定具体涉镉行业的基础上,爬取国家及地方生态环境保护相关职能部门网上公开的各类有关涉镉企业数据信息,并进行格式化处理;
3)以国家工商征信系统和第三方数据集作为涉镉企业信息网络大数据爬取的数据源,并通过确定的涉镉行业类型及检索关键词爬取得到涉镉行业企业补充名录;
4)基于网络大数据提取的数据与经部门公开数据完善的全国涉镉企业名录信息做进一步整合,对整合得到的数据集进行数据的清洗,包括去重、空间位置纠偏和仅有经销业务的无关企业的排除;
其中数据的清洗原则如下:
A、首先进行无监督清洗:预先定义好数据清洗算法,由计算机自动执行算法,对数据集进行清洗,然后产生清洗报告;其中所述的无监督清洗包括删除经营范围中涉及不包括、不含、不涉及、排除、除去、脱硫、无磷、无铅的企业;删除销售企业,包括企业名称及经营范围中包含销、购、易、出口,同时不包含采、选、加工、生产、冶炼、制造字样的企业;
B、再进行有监督清洗:在领域专家的指导下,分析收集数据,手工去除明显的噪声数据和重复记录,判断并填补缺值数据;
5)按照统一设定的数据结构实现数据标准化,并结合企业所在地址和网络地图POI信息,获取空间位置缺失涉镉企业初步的经纬度信息,并按照项目统一的空间信息数学基础进行坐标系转换,至此形成初步的具有空间属性的涉镉企业名录。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院地理科学与资源研究所,未经中国科学院地理科学与资源研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010826881.8/1.html,转载请声明来源钻瓜专利网。





