[发明专利]文本关键词识别方法及相关设备有效
| 申请号: | 202010859290.0 | 申请日: | 2020-08-24 | 
| 公开(公告)号: | CN111985222B | 公开(公告)日: | 2023-07-18 | 
| 发明(设计)人: | 杜佳辉;周琅 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 | 
| 主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/216;G06F16/951;G06F16/35 | 
| 代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 刘丽华;常云敏 | 
| 地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 文本 关键词 识别 方法 相关 设备 | ||
本发明涉及人工智能领域,提供一种文本关键词识别方法及相关设备,该方法包括:采集原始数据;通过初始识别模型,对原始数据进行初步识别,获得污染分类初步结果;接收分类调整数据,并根据分类调整数据分析影响污染分类初步结果的因素;根据因素,对分类调整数据进行标记;提取环境污染特征,计算环境污染特征的权值,并根据权值构建向量化样本集;使用向量化样本集对初始识别模型进行优化训练,获得生态环境污染识别模型;使用生态环境污染识别模型,对新发布数据进行污染识别,获得污染类别精确结果。可选的,本发明还涉及区块链技术,可以将污染类别精确结果上传至区块链。本发明还可应用于智慧环保,从而可以推动智慧城市的发展建设。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文本关键词识别方法及相关设备。
背景技术
随着大数据和互联网的迅速发展,涉及生态环境保护领域的互联网舆情线索大量聚集并迅速传播,成为官方发现环境污染线索的重要来源之一。然而,在“互联网+”背景下,文本信息量剧增,传播速度快,这些无疑给环境污染线索的挖掘带来挑战。因此,如何从互联网数据中挖掘并正确识别污染类别是一个亟待解决的技术问题。
发明内容
鉴于以上内容,有必要提供一种文本关键词识别方法及相关设备,能够从互联网数据中挖掘并正确识别污染类别。
本发明的第一方面提供一种文本关键词识别方法,所述文本关键词识别方法包括:
通过网络爬虫技术,从互联网中采集原始数据;
通过初始识别模型,对所述原始数据进行初步识别,获得污染分类初步结果;
接收针对所述污染分类初步结果输入的分类调整数据,并根据所述分类调整数据分析影响所述污染分类初步结果的因素;
根据所述因素,对所述分类调整数据进行标记;
从标记后的所述分类调整数据中提取环境污染特征,采用词频-逆文本频率指数TF-IDF算法计算所述环境污染特征的权值,并根据所述权值构建向量化样本集;
使用所述向量化样本集对所述初始识别模型进行优化训练,获得训练好的生态环境污染识别模型;
使用所述训练好的生态环境污染识别模型,对所述互联网上的新发布数据进行污染识别,获得所述新发布数据的污染类别精确结果。
在一种可能的实现方式中,所述根据所述分类调整数据分析影响所述污染分类初步结果的因素包括:
针对每个所述分类调整数据,判断所述分类调整数据的属性是否为事件;
若所述分类调整数据的属性为事件,获取所述分类调整数据的事件状态;
若所述事件状态表明所述分类调整数据划分为非污染类,确定影响所述污染分类初步结果的因素为事件状态。
在一种可能的实现方式中,所述根据所述分类调整数据分析影响所述污染分类初步结果的因素包括:
针对每个所述分类调整数据,获取所述分类调整数据的数据类型;
判断所述数据类型是否为预设的非污染数据类型;
若所述数据类型为预设的非污染数据类型,且所述分类调整数据被调整为非污染类,确定影响所述污染分类初步结果的因素为数据类型。
在一种可能的实现方式中,所述文本关键词识别方法还包括:
从所述污染类别精确结果中,获取每类污染类别的污染物质;
获取所述污染物质的关联生态信息,所述关联生态信息用于表示所述污染物质造成污染的生态链;
根据所述关联生态信息,确定所述污染物质的多个污染类别;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010859290.0/2.html,转载请声明来源钻瓜专利网。





