[发明专利]一种基于知识关联与相关性反馈技术的舆情数据采集方法在审

专利信息
申请号: 202210742598.6 申请日: 2022-08-25
公开(公告)号: CN115145894A 公开(公告)日: 2022-10-04
发明(设计)人: 赵永国;杨荣霞;曹熙;张仙梅;曾祥清;黎名航 申请(专利权)人: 南方电网大数据服务有限公司
主分类号: G06F16/21 分类号: G06F16/21;G06F16/215;G06F16/28;G06F16/23;G06N5/02;G06F9/48;G06F9/50;G06F40/289;G06F40/295;G06F40/216;G06F40/242;G06F40/30
代理公司: 北京中睿智恒知识产权代理事务所(普通合伙) 16025 代理人: 侯文峰
地址: 510000 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 知识 关联 相关性 反馈 技术 舆情 数据 采集 方法
【说明书】:

发明公开了一种基于知识关联与相关性反馈技术的舆情数据采集方法,以特定目标的关键词典为种子进行数据采集,通过对采集结果进行知识关联分析以扩充原始词典,并在新词典的采集结果基础上进行相关性反馈与重复率检测等分析以评估数据采集效果,最后判断是否需要在新的采集循环中重构关键词典;本发明基于关键词的分布式数据采集系统基础上融合了命名实体识别与知识关联方法以扩充知识库,并设计多个指标评估采集效果,通过控制指标阈值实现自动化、可持续、可迭代的知识更新策略与信息采集策略,服务社交媒体舆情数据获取与知识发现等现实需求。

技术领域

本发明涉及数据采集工程领域,尤其涉及一种基于知识关联与相关性反馈技术的舆情数据采集方法。

背景技术

对特定事件数据获取任务中,需要以精准的人为观察作为先验知识输入采集系统,以明确数据采集的方向。但是上述先验知识的获取任务如果完全依赖人力,则耗费成本巨大,而且总体低效不高。

为了满足上述需求,需要一套自动进行知识获取与扩充并评估效果的数据采集系统,在少量先验知识基础上进行自动化知识扩充,并将新的知识转化为数据采集策略,最后评估采集效果,判断是否需要更变采集策略。上述系统的难点主要表现在如何科学的扩充知识库与如何合理设计采集策略的更新规则两个方面。对于知识获取流程而言,如何识别新的知识,如何挖掘知识关联以及如何评价新知识库对于数据采集的提升,是亟待解决的主要问题;而对于采集流程设计而言,如何构造知识库与关键词典,如何设计词典与采集程序之间的任务调度以及如何设计采集策略的更新规则,是研发的核心重点。

发明内容

为了解决现有的技术难题,本发明提供了一种基于知识关联与相关性反馈技术的舆情数据采集方法,包括:一种基于知识关联与相关性反馈技术的舆情数据采集方法,包括以下步骤:

构建数据库:搜集特定事件相关信息,挑选主要的关键词编成词典,构建具有录入和可互动编辑功能的轻量化数据库;

分布式数据采集:针对轻量化数据库的任务清单与关键词清单进行自动化任务调度,实现分布式数据采集,通过设计优先级策略和自定义配置,满足数据采集的灵活性需求;

数据预处理:对于获取到的数据进行拼接、去重处理,对文本数据进行字符过滤、分词处理,统一数据格式;

知识关联:基于预处理后的数据,针对已有的关键词典进行知识发现与知识关联分析,获取语用层面和语义层面上与关键词典关联度最高的词汇,形成扩充字典;

重构知识库:将扩充字典与原始的关键词典进行合并、去重,然后投入下一轮数据采集循环当中。

优选地,在构建数据库的过程中,对特定事件与任务进行关键词的挑选、收集,并填写对应关键词的初始属性,其中,初始属性包括编号、实体、来源、任务状态;

使用可交互编辑的轻量化数据库SeaTable录入关键词,并以表格形式呈现,生成对应的任务清单与关键词清单,以供采集系统读取;

在SeaTable提供的Python模块基础上,构建知识库操作程序,基于Base函数模块和SeaTable数据表的Token构造知识库连接器 base_connecter;

在知识库链接器base_connecter基础上,基于SeaTable提供的 insert_row、delete_row与update_row函数模块,生成知识库的增删改程序,用于添加、删除或修改知识库数据内容;

在知识库链接器base_connecter基础上,基于SeaTable提供 query函数模块以及get_rows和list_rows函数模块,构建支持轻量化SQL查询的知识库数据内容查寻读取程序,用于检索并读取指定的知识内容。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方电网大数据服务有限公司,未经南方电网大数据服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210742598.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top