[发明专利]基于递归的电话号码的识别方法及装置有效
| 申请号: | 201510643026.2 | 申请日: | 2015-09-30 |
| 公开(公告)号: | CN105187600B | 公开(公告)日: | 2018-09-07 |
| 发明(设计)人: | 马健 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
| 主分类号: | H04M1/2745 | 分类号: | H04M1/2745;H04M1/725 |
| 代理公司: | 北京智汇东方知识产权代理事务所(普通合伙) 11391 | 代理人: | 康正德;范晓斌 |
| 地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 递归 电话号码 识别 方法 装置 | ||
本发明提供了一种基于递归的电话号码的识别方法及装置。该方法包括:预处理操作,对原始待识别电话号码串进行与电话号码格式相关的预处理,得到处理后的目标待识别电话号码串;划分操作,从初始位置起,根据符合电话号码格式的划分规则对所述目标待识别电话号码串进行划分,得到第一指定位数的号码串;识别操作,识别出所述第一指定位数的号码串对应的电话号码的类别;递归操作,如果仍然存在剩余的待识别电话号码串,则对剩余的待识别电话号码串进行重复递归,直至剩余的待识别电话号码串被全部识别完。本发明实施例基于递归操作,则对剩余的待识别电话号码串进行重复递归,直至剩余的待识别电话号码串被全部识别完。
技术领域
本发明涉及互联网应用技术领域,特别是一种基于递归的电话号码的识别方法及装置。
背景技术
POI(Point of Interest),即兴趣点,是整个地图导航产业的基石,尤其在当前移动互联网时代,地图信息数据就变得更加不可或缺了。海量网页中包含大量的POI信息,每个POI信息包含名称、地址、经纬度、电话号码等信息,不同网页的POI数据质量层次不齐,而电话作为联系兴趣点的重要方式,其准确性是衡量一个POI数据质量的重要指标。
海量网页中包含了数以亿计的POI信息,电话号码的呈现方式也复杂多样,同一个POI信息可能会包含多个固定电话或者移动电话,并且交错合并到一起。此外,从互联网中提取的POI信息可能存在大量的错误的数据,POI的电话号码也是如此,而错误的电话号码在应用时会给用户带来体验上的伤害,所以如何准确地识别出网页POI信息中的电话号码成为目前亟待解决的技术问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于递归的电话号码的识别方法及相应的装置。
依据本发明的一方面,提供了一种基于递归的电话号码的识别方法,包括:
预处理操作,对原始待识别电话号码串进行与电话号码格式相关的预处理,得到处理后的目标待识别电话号码串;
划分操作,从初始位置起,根据符合电话号码格式的划分规则对所述目标待识别电话号码串进行划分,得到第一指定位数的号码串;
识别操作,识别出所述第一指定位数的号码串对应的电话号码的类别;
递归操作,如果仍然存在剩余的待识别电话号码串,则对剩余的待识别电话号码串进行重复递归,直至剩余的待识别电话号码串被全部识别完。
可选地,对剩余的待识别电话号码串进行重复递归,包括:
对剩余的待识别电话号码串执行所述预处理操作、所述划分操作以及所述识别操作。
可选地,所述对原始待识别电话号码串进行与电话号码格式相关的预处理操作,得到处理后的目标待识别电话号码串,包括:
确定所述原始待识别电话号码串中是否包含指定的分隔符;
若所述原始待识别电话号码串中包含指定的分隔符,则按照该分隔符切分所述原始待识别电话号码串,得到切分后的至少两个目标待识别电话号码串。
可选地,所述指定的分隔符包括下列至少之一:顿号、逗号、分号、斜杠、反斜杠、竖杆。
可选地,在得到切分后的至少两个目标待识别电话号码串之后,还包括:
对于各个目标待识别电话号码串,确定该目标待识别电话号码串的头部是否具有国家区号;
若是,则去除该目标待识别电话号码串头部的国家区号。
可选地,在去除该目标待识别电话号码串头部的国家区号之后,还包括:
分析去除了国家区号之后的所述目标待识别电话号码串;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510643026.2/2.html,转载请声明来源钻瓜专利网。





