[发明专利]一种基于知识关联与相关性反馈技术的舆情数据采集方法在审
| 申请号: | 202210742598.6 | 申请日: | 2022-08-25 |
| 公开(公告)号: | CN115145894A | 公开(公告)日: | 2022-10-04 |
| 发明(设计)人: | 赵永国;杨荣霞;曹熙;张仙梅;曾祥清;黎名航 | 申请(专利权)人: | 南方电网大数据服务有限公司 |
| 主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/215;G06F16/28;G06F16/23;G06N5/02;G06F9/48;G06F9/50;G06F40/289;G06F40/295;G06F40/216;G06F40/242;G06F40/30 |
| 代理公司: | 北京中睿智恒知识产权代理事务所(普通合伙) 16025 | 代理人: | 侯文峰 |
| 地址: | 510000 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 知识 关联 相关性 反馈 技术 舆情 数据 采集 方法 | ||
1.一种基于知识关联与相关性反馈技术的舆情数据采集方法,其特征在于,包括以下步骤:
构建数据库:搜集特定事件相关信息,挑选主要的关键词编成词典,构建具有录入和可互动编辑功能的轻量化数据库;
分布式数据采集:针对所述轻量化数据库的任务清单与关键词清单进行自动化任务调度,实现分布式数据采集,通过设计优先级策略和自定义配置,满足数据采集的灵活性需求;
数据预处理:对于获取到的数据进行拼接、去重处理,对文本数据进行字符过滤、分词处理,统一数据格式;
知识关联:基于预处理后的数据,针对已有的关键词典进行知识发现与知识关联分析,获取语用层面和语义层面上与关键词典关联度最高的词汇,形成扩充字典;
重构知识库:将所述扩充字典与原始的关键词典进行合并、去重,然后投入下一轮数据采集循环当中。
2.根据权利要求1所述一种基于知识关联与相关性反馈技术的舆情数据采集方法,其特征在于:
在构建数据库的过程中,对特定事件与任务进行关键词的挑选、收集,并填写对应关键词的初始属性,其中,所述初始属性包括编号、实体、来源、任务状态;
使用可交互编辑的轻量化数据库SeaTable录入关键词,并以表格形式呈现,生成对应的任务清单与关键词清单,以供采集系统读取;
在SeaTable提供的Python模块基础上,构建知识库操作程序,基于Base函数模块和SeaTable数据表的Token构造知识库连接器base_connecter;
在知识库链接器base_connecter基础上,基于SeaTable提供的insert_row、delete_row与update_row函数模块,生成知识库的增删改程序,用于添加、删除或修改知识库数据内容;
在知识库链接器base_connecter基础上,基于SeaTable提供query函数模块以及get_rows和list_rows函数模块,构建支持轻量化SQL查询的知识库数据内容查寻读取程序,用于检索并读取指定的知识内容。
3.根据权利要求2所述一种基于知识关联与相关性反馈技术的舆情数据采集方法,其特征在于:
在进行分布式数据采集的过程中,判断当前流程是否为初次数据采集,若是则进行所述数据预处理,若否则进行采集效果评估,其中,所述采集效果评估用于通过计算采集结果是否达到阈值,判断是否需要扩充词典。
4.根据权利要求3所述一种基于知识关联与相关性反馈技术的舆情数据采集方法,其特征在于:
在进行采集效果评估的过程中,构造相关性反馈指标与重复率指标作为判断条件,计算采集结果是否达到阈值目标,若是则说明无需扩充词典,继续执行分布式数据采集;若否则说明需要扩充词典,执行知识关联步骤。
5.根据权利要求4所述一种基于知识关联与相关性反馈技术的舆情数据采集方法,其特征在于:
在进行分布式数据采集的过程中,使用Airflow大数据分布式任务调度框架,将Airflow的Worker工作器节点分布于多台服务器,使用Airflow的Scheduler实现任务调度分配功能,构造DAG任务流程。
6.根据权利要求5所述一种基于知识关联与相关性反馈技术的舆情数据采集方法,其特征在于:
在使用Airflow大数据分布式任务调度框架的过程中,使用Airflow的Scheduler作为任务调度器,调度程序监控所有任务和DAG,然后在它们的依赖关系完成后触发任务实例。
7.根据权利要求6所述一种基于知识关联与相关性反馈技术的舆情数据采集方法,其特征在于:
在构造DAG任务流程的过程中,读取知识库中的任务清单,判断任务状态,选择待执行任务读取其对应的关键词清单传入数据采集组件,并将执行结果写回知识库任务清单中;
通过获取任务对应的关键词清单,使用Scheduler将关键词分发到空闲的采集工作器节点中执行数据采集任务,用于确保多个工作器的任务负载均衡;
待数据采集完毕后,将采集结果写入MySQL数据库中,等待后续步骤调用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方电网大数据服务有限公司,未经南方电网大数据服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210742598.6/1.html,转载请声明来源钻瓜专利网。





