[发明专利]基于时间格式和网页元素特征的文章发布时间识别方法在审
申请号: | 202011461251.1 | 申请日: | 2020-12-14 |
公开(公告)号: | CN112232075A | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 靳林林;李青龙 | 申请(专利权)人: | 北京智慧星光信息技术有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F16/38 |
代理公司: | 北京智宇正信知识产权代理事务所(普通合伙) 11876 | 代理人: | 李明卓 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时间 格式 网页 元素 特征 文章 发布 识别 方法 | ||
1.一种基于时间格式和网页元素特征的文章发布时间识别方法,其特征在于,包括:
获取待识别文章的源码;
去除源码中标签文本内容的长度大于第一预设长度的标签,得到去除标签后源码,所述第一预设长度是根据时间格式和临近元素特征确定的;
判断去除标签后源码中是否包含时间标志关键词,所述时间标志关键词是根据网页元素特征得到的;
若源码中包含时间标志关键词,则根据时间标志关键词得到文章发布时间;
若源码中不包含时间标志关键词,则判断源码中是否包含时间辅助关键词,时间辅助关键词是根据网页元素特征得到的;
若源码中包含时间辅助关键词,则根据时间辅助关键词得到文章发布时间;
若源码中不包含时间辅助关键词,则判断源码中是否包含时间要素;
若源码中包含时间要素,则根据时间要素得到文章发布时间。
2.如权利要求1所述的基于时间格式和网页元素特征的文章发布时间识别方法,其特征在于,若源码中包含时间标志关键词,则根据时间标志关键词得到文章发布时间的步骤中,包括:
若源码中包含时间标志关键词,则根据时间标志关键词得到时间标志关键词对应的父元素以及父元素的所有子元素;
提取时间标志关键词对应的父元素和父元素的所有子元素中的所有日期元素对应的日期文本;
判断日期文本的长度是否大于第二预设长度;
若日期文本的长度大于第二预设长度,则去除所述日期文本;
若日期文本的长度小于或者等于第二预设长度,则保留所述日期文本,得到第一日期文本集合;
若所述第一日期文本集合中的日期文本的个数等于一个,则所述日期文本为文章发布时间;
若所述第一日期文本集合中的日期文本的个数大于一个,则根据文章来源的位置和文章标题的位置得到文章发布时间。
3.如权利要求2所述的基于时间格式和网页元素特征的文章发布时间识别方法,其特征在于,若所述第一日期文本集合中的日期文本的个数大于一个,则根据文章来源的位置和文章标题的位置得到文章发布时间的步骤中,包括:
若第一日期文本集合中的日期文本的个数大于一个,则在第一日期文本集合中查找与文章来源所在位置索引距离最近的日期文本,得到查找结果;
若查找结果为查找到,则将查找到的与文章来源所在位置索引距离最近的日期文本作为文章发布时间;
若查找结果为未查找到,则将第一日期文本集合中与文章标题所在位置索引距离最近的日期文本作为文章发布时间。
4.如权利要求1所述的基于时间格式和网页元素特征的文章发布时间识别方法,其特征在于,若源码中包含时间辅助关键词,则根据时间辅助关键词得到文章发布时间的步骤中,包括:
若源码中包含时间辅助关键词,则获取时间辅助关键词的位置;
根据时间辅助关键词的位置,查找距离时间辅助关键词小于第一预设索引距离的时间元素,得到时间元素集合;
提取时间元素集合中的所有日期文本,得到第二日期文本集合;
若第二日期文本集合中的日期文本的个数等于一个,则所述日期文本为文章发布时间;
若第二日期文本集合中的日期文本的个数大于一个,则将第二日期文本集合中的每一个日期文本分别去除非文本内容,得到每一个日期文本的文本长度;
去除元素文本长度小于第三预设长度的日期文本,得到第三文本集合;
将第三文本集合中的第一个日期文本作为文章发布时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智慧星光信息技术有限公司,未经北京智慧星光信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011461251.1/1.html,转载请声明来源钻瓜专利网。