[发明专利]基于时间格式和网页元素特征的文章发布时间识别方法在审
申请号: | 202011461251.1 | 申请日: | 2020-12-14 |
公开(公告)号: | CN112232075A | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 靳林林;李青龙 | 申请(专利权)人: | 北京智慧星光信息技术有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F16/38 |
代理公司: | 北京智宇正信知识产权代理事务所(普通合伙) 11876 | 代理人: | 李明卓 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时间 格式 网页 元素 特征 文章 发布 识别 方法 | ||
本发明公开了一种基于时间格式和网页元素特征的文章发布时间识别方法,该方法包括:去除文本内容长度大于第一预设长度的标签,得到去除标签后源码,第一预设长度是根据时间格式和临近元素特征确定的;判断源码中是否包含时间标志关键词,时间标志关键词是根据网页元素特征得到的,若包含则由时间标志关键词得到文章发布时间,若不包含则判断是否包含时间辅助关键词,时间辅助关键词是根据网页元素特征得到的;若包含则根据时间辅助关键词得到文章发布时间;若不包含则判断是否包含时间要素;若包含时间要素则遍历全文时间要素,根据文章头部元素特征和时间元素关系得到文章发布时间,实现了文章发布时间的自动识别与提取。
技术领域
本发明涉及网页特征渲染领域,具体涉及一种基于时间格式和网页元素特征的文章发布时间识别方法、系统、电子设备及存储介质。
背景技术
在现实应用中,对于网络文章尤其是新闻媒体的发布时间进行准确的提取,在传播分析、舆情监测与预警等领域都有着极为重要的意义。而随着当前互联网的不断发展,新出现的网站数以亿计,而且网页形式也日益多样,这种情况下,依靠传统手工配置路径等来提取大量网站的时间已经愈发不现实。
发明内容
有鉴于此,本发明实施例提供了一种基于时间格式和网页元素特征的文章发布时间识别方法、系统、电子设备及存储介质,以实现文章发布时间的自动识别与提取。
为此,本发明实施例提供了如下技术方案:
根据第一方面,本发明实施例提供了一种基于时间格式和网页元素特征的文章发布时间识别方法,包括:获取待识别文章的源码;去除源码中标签文本内容的长度大于第一预设长度的标签,得到去除标签后源码,所述第一预设长度是根据时间格式和临近元素特征确定的;判断去除标签后源码中是否包含时间标志关键词,所述时间标志关键词是根据网页元素特征得到的;若源码中包含时间标志关键词,则根据时间标志关键词得到文章发布时间;若源码中不包含时间标志关键词,则判断源码中是否包含时间辅助关键词,时间辅助关键词是根据网页元素特征得到的;若源码中包含时间辅助关键词,则根据时间辅助关键词得到文章发布时间;若源码中不包含时间辅助关键词,则判断源码中是否包含时间要素;若源码中包含时间要素,则根据时间要素得到文章发布时间。
可选地,若源码中包含时间标志关键词,则根据时间标志关键词得到文章发布时间的步骤中,包括:若源码中包含时间标志关键词,则根据时间标志关键词得到时间标志关键词对应的父元素以及父元素的所有子元素;提取时间标志关键词对应的父元素和父元素的所有子元素中的所有日期元素对应的日期文本;判断日期文本的长度是否大于第二预设长度;若日期文本的长度大于第二预设长度,则去除所述日期文本;若日期文本的长度小于或者等于第二预设长度,则保留所述日期文本,得到第一日期文本集合;若所述第一日期文本集合中的日期文本的个数等于一个,则所述日期文本为文章发布时间;若所述第一日期文本集合中的日期文本的个数大于一个,则根据文章来源的位置和文章标题的位置得到文章发布时间。
可选地,若所述第一日期文本集合中的日期文本的个数大于一个,则根据文章来源的位置和文章标题的位置得到文章发布时间的步骤中,包括:若第一日期文本集合中的日期文本的个数大于一个,则在第一日期文本集合中查找与文章来源所在位置索引距离最近的日期文本,得到查找结果;若查找结果为查找到,则将查找到的与文章来源所在位置索引距离最近的日期文本作为文章发布时间;若查找结果为未查找到,则将第一日期文本集合中与文章标题所在位置索引距离最近的日期文本作为文章发布时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智慧星光信息技术有限公司,未经北京智慧星光信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011461251.1/2.html,转载请声明来源钻瓜专利网。