[发明专利]一种疫情新闻信息提取方法及系统有效
| 申请号: | 202010824197.6 | 申请日: | 2020-08-17 |
| 公开(公告)号: | CN111966879B | 公开(公告)日: | 2023-08-08 |
| 发明(设计)人: | 陈佳珊;黄景浩;杨坦 | 申请(专利权)人: | 华南师范大学 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9537;G06F16/958;G06F40/284;G06F40/289 |
| 代理公司: | 广东捷凯创新专利代理有限公司 44974 | 代理人: | 何金芳 |
| 地址: | 510000 *** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 疫情 新闻 信息 提取 方法 系统 | ||
本发明提出一种疫情新闻信息提取方法,针对疫情新闻网页这一特定场景将其中的新闻文本中相关信息进行抽取,并转化为结构化数据,继而对数据进行存储与可视化展示;其特征在于,包括以下步骤:数据爬取步骤;数据处理步骤;路径信息提取步骤;居住地/常住地信息提取步骤;交通搭乘信息提取步骤;信息输出展示步骤;通过爬虫工具加载网页获取新闻文本,构建了句子拼接与文本分割算法,其中结合疫情文本特点,综合运用实体命名识别、地图API等工具,构建路径信息、居住地/常住地信息、交通搭乘信息三大提取模块,最后将系统部署为用户友好的网页,为用户自主提取信息提供便利。
技术领域
本发明涉及互联网信息收集技术,具体涉及一种疫情新闻信息提取方法及系统。
背景技术
互联网新闻网页信息是人们重要的信息来源渠道,但是面对海量网页信息,人们往往难以迅速判定和获取自身所需的内容,特点是新闻网页正文的外围存在众多不需要的噪音信息,例如,广告链接,脚本程序等,这些信息极大程度上干扰了人们的视线,令到人们在获取新闻正文信息时受到干扰。对此,需要有效的数据清洗手段对新闻网页进行噪音信息过滤以获取相关正文信息。
发明内容
为满足对新闻正文信息的提取需求,本发明提出一种疫情新闻信息提取方法及系统,针对疫情新闻网页这一特定场景将其中的新闻文本中相关信息进行抽取,并转化为结构化数据,继而对数据进行存储与可视化展示;其具体技术内容如下:
一种疫情新闻信息提取方法,其包括以下步骤:
步骤01,数据爬取步骤;
基于爬虫工具对指向新闻网页的若干网址进行模拟加载,以获取新闻网页中的内容;
步骤02,数据处理步骤;
依预设规则判断所获得的网页内容中的相邻句子应否接续,对需接续的两相邻句子执行接续操作,遍历网页内容中的所有句子,以获得新闻文本;将所获得的新闻文本分割成为若干个长句子的集合,每一个长句子再分割成为若干个短句子的集合;
步骤03,路径信息提取步骤;
在分割处理后的新闻文本的句子集合中提取若干路径要素以构成路径信息,所述路径要素包括地址信息、行为事件信息、省/市/县信息、时间信息;
步骤04,居住地/常住地信息提取步骤;
在分割处理后的新闻文本的句子集合中提取若干居住-常住地要素以构成居住地/常住地信息,所述居住-常住地要素包括居住地或常住地信息、居住地/常住地所属的省、市、县级行政区信息;
步骤05,交通搭乘信息提取步骤;
在分割处理后的新闻文本的句子集合中提取若干交通要素以构成交通搭乘信息,所述交通要素包括交通工具信息、起点信息、终点信息;
步骤06,信息输出展示步骤;
通过网页动态渲染,在网页中展示所述路径信息,居住地/常住地信息,交通搭乘信息中的一种或多种。
于本发明的一个或多个实施例当中,所述步骤01的操作包括:
步骤011,通过添加适当的请求头对爬虫程序进行伪装,避免新闻网站识别出爬虫程序而进行IP封禁;使用爬虫程序加载新闻网页并等待网页的所有元素加载完成;
步骤012,利用lxml库解析所获得的页面;
步骤013,利用Xpath表达式提取相对应html元素的内容,提取内容包括网页正文,所述网页正文由网页内所有的p标签内的内容拼接而成。
于本发明的一个或多个实施例当中,所述步骤02的操作包括:
以标点符号为依据来判断是否应接续前后相邻的句子,其包括以下情况:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010824197.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于实测数据的台区线损动态计算方法及装置
- 下一篇:一种薄膜卷取机
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





