[发明专利]文章发布时间通用识别方法、系统、电子设备及存储介质有效
| 申请号: | 202011461250.7 | 申请日: | 2020-12-14 |
| 公开(公告)号: | CN112232020B | 公开(公告)日: | 2021-03-16 |
| 发明(设计)人: | 林宾;杨松柏;李青龙 | 申请(专利权)人: | 北京智慧星光信息技术有限公司 |
| 主分类号: | G06F40/103 | 分类号: | G06F40/103;G06F40/205;G06F40/47 |
| 代理公司: | 北京智宇正信知识产权代理事务所(普通合伙) 11876 | 代理人: | 李明卓 |
| 地址: | 100080 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文章 发布 时间 通用 识别 方法 系统 电子设备 存储 介质 | ||
本发明公开了一种文章发布时间通用识别方法、系统、电子设备及存储介质,该方法包括:获取待识别文章所对应的时间日期文本,时间日期文本包括时间文本和日期文本;对时间日期文本进行分割处理,得到时间文本和日期文本;按照第一预设顺序对时间文本进行排列,并将排列后的时间文本存储至待解析容器;对日期文本进行语言识别,将日期文本中的单词转换为数字,得到转换日期文本;按照第二预设顺序对转换日期文本进行排列,并将排列后的转换日期文本存储至待解析容器;对排列后的时间文本和排列后的转换日期文本进行组合,得到组合时间;对组合时间进行解析,得到待识别文章的当地发布时间。通过上述步骤实现了当地发布时间的自动提取和通用识别。
技术领域
本发明涉及计算机技术领域,具体涉及一种文章发布时间通用识别方法、系统、电子设备及存储介质。
背景技术
随着互联网的快速发展,各个国家网页中文章发布时间也是多种多样,不仅语言不一样,时间格式也不统一。通常在获取了多种语言的时间格式后,不仅要手动找出需要翻译的时间文本,还需要借助翻译软件进行翻译才能转换;并且,翻译后的时间格式比较乱,也做不到统一,具体如表1所示。因此,对翻译后的时间进行筛选操作比较困难,无法对大量文章进行发文时间的统计。
表1
原文本 百度翻译 国家 14:45 Mercoledì 16 settembre 2020 14: 45 2020年9月16日星期三 意大利 05 июля 2020 10:20 Аварский театр продолжает 2020年7月05日10:20阿瓦尔剧院继续进行” 俄罗斯 16. September 2020 | Sponsored Post 162020年9月|赞助职位 美国 18. Září 2020, 8:54 18号。2020年9月8:54 捷克 mayo 12 2020 13:32 梅奥12号2020 13:32 西班牙
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智慧星光信息技术有限公司,未经北京智慧星光信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011461250.7/2.html,转载请声明来源钻瓜专利网。





