[发明专利]一种基于图结构的地名地址的解析方法有效
申请号: | 202010271555.5 | 申请日: | 2020-04-09 |
公开(公告)号: | CN111191084B | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 冯建亮;周雄;徐忠建;朱必亮 | 申请(专利权)人: | 速度时空信息科技股份有限公司 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/904;G06F16/29;G06F40/289;G06F40/295 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 王素琴 |
地址: | 210042 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 结构 地名 地址 解析 方法 | ||
1.一种基于图结构的地名地址的解析方法,其特征在于,具体包括以下步骤:
S1定义地名地址图模型,用以表达地名地址的路径图;
S2基于涉及地名地址的基础地理信息数据以及专题地理信息数据,构建地名地址路径图数据库、地名地址空间数据库和地名地址全文索引数据库,分别用于表达地名地址路径图、地名地址空间数据和地名地址全文索引,并将所述地名地址空间数据库和地名地址路径图数据库合并;
S3基于地名地址图结构的解析方法,首先进行分词及命名实体识别,再通过全文检索获取候选路径,然后在地名地址图数据库中进行路径匹配,实现对地名地址的解析;
所述步骤S2具体包括以下步骤:
S21构建地名地址路径图数据库:基于兼容步骤S1定义的所述地名地址图模型,根据基底地名地址构建所述地名地址路径图数据库,所述地名地址路径图数据库包括主干地名地址图结构和外部地名地址图结构;
S22构建地名地址空间数据数据库:根据基底地名地址的要素信息以及空间网络模型进行空间索引,将R树和网络拓扑索引树合并入所述地名地址路径图数据库;
S23构建地名地址全文索引内容数据库:构建地名地址文本的全文索引,针对地名地址的通名、专名、拼音、类型进行全文检索;
S24将合并后的地名地址路径图数据库和地名地址空间数据数据库与所述地名地址全文索引数据库的同一地名地址进行双向关联,当出现数据不一致时,以所述地名地址空间数据数据库作为数据一致性的基准;解析的遍历过程以所述地名地址路径图数据库及与其合并的所述地名地址空间数据数据库为核心;
所述步骤S3基于地名地址图结构的解析方法包括分词及命名实体识别,全文检索获取候选路径,在所述地名地址图数据库中进行路径匹配;具体包括以下步骤:
S31地名地址进行分词及命名实体识别:采用自然语言处理的规则方法或机器学习方向进行分词及命名实体识别;针对分词及命名实体识别的模型训练,通过S21地名地址路径图数据库的遍历生成地名地址组合作为语料,支撑训练模型对于长文本信息的建模;分词及命名实体识别获取待解析的N个地名地址候选分词结果Si=SP1|SP2|...|SPm,对应置信度为SCi;
S32全文索引获取候选路径:对每个地名地址候选分词结果Si中含文本描述的地名SPj在所述地名地址全文索引数据库中进行全文检索,获取候选地名地址的ID集合IDSj,构建候选地名地址路径集合PSi=IDS1-IDS2-...-IDS,其中地名为ID集合,地址仍为数字符号;-表示路径走向集合,所有的候选路径为前后IDS的笛卡尔积;
S33在所述地名地址图数据库中进行路径匹配:对每个候选地名地址路径集合PSi,在所述地名地址路径图数据库中进行路径匹配,根据地名地址的领域特点,采用路径匹配算法计算匹配度,从而获得解析匹配度;
所述步骤S33采用路径匹配算法计算匹配度的过程为:
S331遍历入口选择:将所述外部地名地址作为入口,或以骨架地名作为入口进行双向遍历;
S332遍历过程策略:从入口节点开始进行双向遍历,当前序遍历无法匹配时,则后续遍历停止;对于有多个入口节点并行遍历,支持路径匹配Map-Reduce方法;在遍历过程中若涉及空间关系,则采用显性保存的空间关系路径,反之则进入所述地名地址空间数据数据库的空间索引树继续遍历;遍历之前先做全文检索,或延迟至遍历过程中进行单个地名地址节的全文检索,即在前序或后续遍历时,根据对应分词文本,实时获取候选地名地址节,并进行过滤;
S333遍历结果匹配度计算:针对每个所述候选地名地址路径集合PSi的每条所述地名地址路径,根据其在所述地名地址路径图数据库中遍历匹配的路径长度以及中间关系间隔设置匹配度PM,并结合对应置信度SCi加权作为解析结果的匹配度。
2.权利要求1所述的基于图结构的地名地址的解析方法,其特征在于,所述主干地名地址图结构为树状结构,分为三大层分别为:包含省市县和街道社区的区划地名,包含街路巷及物业小区的骨架地名,包含门楼牌、楼幢、层户的地址。
3.根据权利要求2所述的基于图结构的地名地址的解析方法,其特征在于,所述外部地名地址图结构为包含描述信息的外部地名地址,所述描述信息包括兴趣点、道路交汇点和出入口;所述外部地名地址图结构的外部地名地址节点以多链接的方式接入所述主干地名地址图结构的地名地址节点中,形成网状结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于速度时空信息科技股份有限公司,未经速度时空信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010271555.5/1.html,转载请声明来源钻瓜专利网。