[发明专利]一种企业行业分类识别及其特征污染物识别的方法及装置有效
| 申请号: | 202010832353.3 | 申请日: | 2020-08-18 | 
| 公开(公告)号: | CN111914090B | 公开(公告)日: | 2021-05-04 | 
| 发明(设计)人: | 王夏晖;黄国鑫;朱守信;季国华;田梓;卢然;陈茜 | 申请(专利权)人: | 生态环境部环境规划院 | 
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/30;G06Q10/04;G06Q10/06 | 
| 代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 李博洋 | 
| 地址: | 100012 *** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 企业 行业 分类 识别 及其 特征 污染物 方法 装置 | ||
本发明实施例提供了一种企业行业分类识别及其特征污染物识别的方法及装置,其中,企业的行业分类识别方法包括:获取目标企业的信息点数据;根据预设的有语义词汇库、预设的行业摘要信息及信息点数据确定信息点数据的特征词以及特征词的特征值;根据预设行业分类预测模型和特征值确定目标企业所属的行业分类。通过实施本发明,得到的特征值可以有效避免无意义词汇的干扰,从而识别得到的目标企业所属的行业分类更加准确。
技术领域
本发明涉及土壤和地下水污染风险管控技术领域,具体涉及一种企业行业分类识别及其特征污染物识别的方法及装置。
背景技术
由于不同行业的企业会产生不同的特征污染物,因此对不同行业的企业有不同的管理措施,为了更好地对企业进行管控,需要先对企业所属行业进行判断,传统对企业所属行业的判断方式通常是人为了解企业简介中记载的所属行业或企业的经营范围,从而人为判断企业所属行业,传统方法虽然可以保证企业所属行业识别的准确性,但是这类方法需要耗费大量人力和时间。随着大数据技术的应用,可以利用互联网上获取的企业信息点(Point Of Interest,POI)数据中文本确定该企业所属的行业分类。但是,由于无法从信息点数据中准确提取能够有效识别企业所属行业分类的词汇,导致通过企业信息点确定的企业所属行业分类存在误差,致使准确性不高。另一方面,现有文本分类算法或模型存在有语义词汇库库容不足、易发生过拟合、运算速度和效率低下等缺陷,进而对土壤生态环境管理的决策支撑作用不强。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中的通过企业信息点确定的企业所属行业分类存在误差、有语义词汇库库容不足、易发生过拟合、运算速度和效率低下的缺陷,从而提供一种企业行业分类识别及其特征污染物识别的方法及装置。
本发明第一方面提供了一种企业的行业分类识别方法,包括:获取目标企业的信息点数据;根据预设的有语义词汇库、预设的行业摘要信息及信息点数据确定信息点数据的特征词以及特征词的特征值;根据预设行业分类预测模型和特征值确定目标企业所属的行业分类。
可选地,在本发明提供的企业的行业分类识别方法中,通过以下步骤确定预设的行业分类预测模型:获取企业训练数据;根据企业训练数据、预设的有语义词汇库、预设的行业摘要信息确定企业训练数据的特征词以及特征词的特征值;根据特征值对高斯朴素贝叶斯模型的alpha平滑参数进行调参,获取最优参数;根据高斯朴素贝叶斯模型的最优参数构建预设行业分类预测模型。
可选地,在本发明提供的企业的行业分类识别方法中,确定预设的行业分类预测模型的步骤,还包括:获取企业检验数据;根据预设行业分类预测模型获取企业检验数据所属行业分类的预测结果;根据预测结果计算预设行业分类预测模型的准确率、召回率和F1值;根据准确率、召回率和F1值判断预设行业分类预测模型是否满足预设条件;若预设行业分类预测模型不满足预设条件,返回获取污染企业训练数据的步骤,重新训练预设行业分类预测模型。
可选地,在本发明提供的企业的行业分类识别方法中,根据预设的有语义词汇库、预设的行业摘要信息及信息点数据确定信息点数据的特征词以及特征词的特征值的步骤,包括:对信息点数据进行预处理,提取信息点数据中的多个词汇;将多个词汇中存在于预设的有语义词汇库中的词汇确定为信息点数据的特征词;根据特征词和预设的有语义词汇库计算特征词的词频;若特征词与预设的行业摘要信息相匹配,则根据词频和预设权重计算特征词的特征值;若特征词与预设的行业摘要信息不匹配,则根据词频确定特征词的特征值。
可选地,在本发明提供的企业的行业分类识别方法中,预设的有语义词汇库中包含多个企业名称以及与企业名称相对应的特征词,根据特征词和预设的有语义词汇库计算特征词的词频的步骤,包括:根据特征词在信息点数据中的数量和信息点数据中所有特征词的总数计算特征词的正向词频;根据预设的有语义词汇库内企业名称总数和预设有语义词汇库内包含特征词的企业名称的数量计算特征词的逆文本频率;根据特征词的正向词频和逆文本频率计算特征词的词频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于生态环境部环境规划院,未经生态环境部环境规划院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010832353.3/2.html,转载请声明来源钻瓜专利网。





