[发明专利]文本关键词识别方法及相关设备有效

申请号：	202010859290.0	申请日：	2020-08-24
公开（公告）号：	CN111985222B	公开（公告）日：	2023-07-18
发明（设计）人：	杜佳辉;周琅	申请（专利权）人：	平安国际智慧城市科技股份有限公司
主分类号：	G06F40/279	分类号：	G06F40/279;G06F40/216;G06F16/951;G06F16/35
代理公司：	深圳市赛恩倍吉知识产权代理有限公司 44334	代理人：	刘丽华;常云敏
地址：	518000 广东省深圳市前海深港合***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本关键词识别方法相关设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本关键词识别方法，其特征在于，所述文本关键词识别方法包括：

通过网络爬虫技术，从互联网中采集原始数据；

通过初始识别模型，对所述原始数据进行初步识别，获得污染分类初步结果；

接收针对所述污染分类初步结果输入的分类调整数据，并根据所述分类调整数据分析影响所述污染分类初步结果的因素，包括：针对每个所述分类调整数据，判断所述分类调整数据的属性是否为事件，若所述分类调整数据的属性为事件，获取所述分类调整数据的事件状态，若所述事件状态表明所述分类调整数据划分为非污染类，确定影响所述污染分类初步结果的因素为事件状态，或者，针对每个所述分类调整数据，获取所述分类调整数据的数据类型，判断所述数据类型是否为预设的非污染数据类型，若所述数据类型为预设的非污染数据类型，且所述分类调整数据被调整为非污染类，确定影响所述污染分类初步结果的因素为数据类型；

根据所述因素，对所述分类调整数据进行标记；

标记所述分类调整数据的事件状态或者标记所述分类调整数据的数据类型，并从标记后的所述分类调整数据中提取环境污染特征，采用词频-逆文本频率指数TF-IDF算法计算所述环境污染特征的权值，并根据所述权值构建向量化样本集；

使用所述向量化样本集对所述初始识别模型进行优化训练，获得训练好的生态环境污染识别模型；

使用所述训练好的生态环境污染识别模型，对所述互联网上的新发布数据进行污染识别，获得所述新发布数据的污染类别精确结果；

从所述污染类别精确结果中，获取每类污染类别的污染物质，其中，所述污染类别精确结果中每条新发布数据对应单个污染类别，获取所述污染物质的关联生态信息，所述关联生态信息用于表示所述污染物质造成污染的生态链，根据所述关联生态信息，确定所述污染物质的多个污染类别，并根据所述污染物质的多个污染类别，更新所述污染类别精确结果，其中，更新后的污染类别精确结果中每条新发布数据对应多个污染类别。

2.根据权利要求1所述的文本关键词识别方法，其特征在于，所述文本关键词识别方法还包括：

根据所述污染类型精确结果，从所述新发布数据中确定属于污染类别的污染数据；

获取所述污染数据的污染要素，所述污染要素包括污染物质、污染后果、污染程度以及污染区域；

对所述污染物质、所述污染后果、所述污染程度以及所述污染区域进行加权，获得加权分值；

根据所述加权分值，确定所述污染数据的污染级别；

根据所述污染级别，对所述污染数据进行污染评判。

3.根据权利要求2所述的文本关键词识别方法，其特征在于，所述文本关键词识别方法还包括：

从所述污染级别中获取属于严重级别的第一污染数据对应的污染事件；

判断所述第一污染数据的发布用户是否为个体用户；

若所述第一污染数据的发布用户为个体用户，获取环保部门发布的针对所述污染事件的第二污染数据；

根据所述第一污染数据，对所述第二污染数据的数据可靠性进行校验。

4.根据权利要求3所述的文本关键词识别方法，其特征在于，所述根据所述第一污染数据，对所述第二污染数据的数据可靠性进行校验包括：