[发明专利]地址标准化处理方法、装置、设备及在线搜索系统在审
申请号: | 201911101686.2 | 申请日: | 2019-11-12 |
公开(公告)号: | CN112861532A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 朱宏波;张红梅 | 申请(专利权)人: | 北京四维图新科技股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/387;G06F16/35;G06F16/33 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 朱颖;臧建明 |
地址: | 100094 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地址 标准化 处理 方法 装置 设备 在线 搜索 系统 | ||
本公开披露一种地址标准化处理方法及装置,该方法包括:对待处理的地址数据进行数据处理,得到待处理的地址数据对应的第一字符串。从第一字符串中提取与预设的地址类型词所对应的地址实体词。根据预设的地址类型词和地址实体词,采用游标式边界策略获取标准化的地址数据,标准化的地址数据中包括预设的地址类型词和地址实体词。通过从数据处理后的第一字符串中提取预设的地址类型词所对应的地址实体词,以根据地址类型词和地址实体词得到标准化的地址数据,从而能够针对不同的地址数据分别得到各自对应的标准化地址,避免了根据兴趣点的地址进行匹配所导致的地址标准化存在较大局限性的问题。
技术领域
本申请实施例涉及地理信息技术,尤其涉及一种地址标准化处理方法、装置、设备及在线搜索系统。
背景技术
在很多业务场景中,由用户填写的地址数据中不可避免的会出现缺失和错误,因此对用户输入的地址数据进行标准化显得尤为重要。
目前,现有技术在进行地址标准化时,通常是通过用户填写的地址和数据库中存储的兴趣点(Point of Interest,POI)的地址进行匹配,其中,数据库中兴趣点的地址是已经标准化的地址,从而可以将匹配度最高的兴趣点的地址作为用户输入地址所对应的标准化的地址。
然而,现有数据库中所记录的兴趣点的地址通常只代表该地址的一种写法,则根据兴趣点的地址进行匹配会导致地址标准化存在较大的局限性。
发明内容
本申请实施例提供一种地址标准化处理方法及装置,以克服根据兴趣点的地址进行匹配,会导致地址标准化存在较大的局限性的问题。
第一方面,本申请实施例提供一种地址标准化处理方法,该方法包括:
对待处理的地址数据进行数据处理,得到所述待处理的地址数据对应的第一字符串;从所述第一字符串中提取与预设的地址类型词所对应的地址实体词,其中,地址类型词为用于表示地址要素的词,地址实体词为用于表示地址名称的词;根据所述预设的地址类型词和所述地址实体词,采用游标式边界策略获取标准化的地址数据。
第二方面,本申请实施例提供一种地址标准化装置,该装置包括:预处理模块,用于对待处理的地址数据进行数据处理,得到所述待处理的地址数据对应的第一字符串;提取模块,用于从所述第一字符串中提取与预设的地址类型词所对应的地址实体词,其中,地址类型词为用于表示地址要素的词,地址实体词为用于表示地址名称的词;标准化模块,用于根据所述预设的地址类型词和所述地址实体词,采用游标式边界策略获取标准化的地址数据。
第三方面,本申请实施例提供一种在线搜索系统,该系统包括:搜索接口,用于接收用户的搜索需求以及输出搜索结果;标准地址数据库,用于存储根据权前述任一实施例获取的标准化的地址数据;搜索服务模块,用于解析所述搜索需求,并根据所述搜索需求利用所述标准地址数据库,生成对应的至少一个搜索结果并有序输出;日志分析模块,用于根据搜索记录生成日志并对日志进行分析供下次搜索使用以优化搜索结果排序。
第四方面,本申请实施例提供一种地址标准化处理设备,该设备包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的所述程序,当所述程序被执行时,所述处理器用于执行如上第一方面以及第一方面各种可能的设计中任一所述的方法。
第五方面,本申请实施例提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如上第一方面以及第一方面各种可能的设计中任一所述的方法。
与现有技术相比,本申请的技术方案具有以下技术效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京四维图新科技股份有限公司,未经北京四维图新科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911101686.2/2.html,转载请声明来源钻瓜专利网。