[发明专利]一种提取地址文本的关键信息的方法、装置及介质有效
申请号: | 201910919161.3 | 申请日: | 2019-09-26 |
公开(公告)号: | CN110688851B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 史源源;王培勇;陈宏仁 | 申请(专利权)人: | 亿企赢网络科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/242;G06F16/36 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 丁曼曼 |
地址: | 200120 上海市浦东新区中国*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提取 地址 文本 关键 信息 方法 装置 介质 | ||
1.一种提取地址文本的关键信息的方法,其特征在于,包括:
获取地址文本信息;
根据词典包含的地址名称将所述地址文本信息拆分成单词并获取所述单词对应的编码;
所述词典由所述地址名称与所述编码相互对照的表组成;
判断各个所述单词的编码长度是否符合特定要求;
如果否,则根据所述词典以及各单词对应的编码将所述地址文本信息补充完整;
其中,当一个所述单词匹配多个所述编码时还包括:
根据其左边的单词或编码确定其对应的唯一编码。
2.如权利要求1所述的提取地址文本的关键信息的方法,其特征在于,获取地址名称与编码相互对照的表具体为:
获取国家统计局发布的统计用区划和城乡划分代码数据;
所述统计用区划和城乡划分代码数据由统计用区划代码和名称组成;
删除所述名称与常用词词库重叠的词以形成所述地址名称;
按照预设规则对所述统计用区划代码分等级进行处理以形成所述编码。
3.如权利要求1所述的提取地址文本的关键信息的方法,其特征在于,所述将所述地址文本信息拆分成单词具体为:
将所述地址文本信息从左至右拆分成单词。
4.如权利要求2所述的提取地址文本的关键信息的方法,其特征在于,还包括:
依据国家统计局更新的统计用区划和城乡划分代码数据更新所述词典。
5.如权利要求1所述的提取地址文本的关键信息的方法,其特征在于,还包括:
将根据所述词典分词后剩下的数据按照正则表达式处理。
6.一种提取地址文本的关键信息的装置,其特征在于,包括:
获取模块,用于获取地址文本信息;
分词模块,用于根据词典包含的地址名称将所述地址文本信息拆分成单词并获取所述单词对应的编码;
所述词典由所述地址名称与所述编码相互对照的表组成;
判断模块,用于判断各个所述单词的编码长度是否符合特定要求;如果否,则进入地址文本信息补充模块;
所述地址文本信息补充模块,用于根据所述词典以及各单词对应的编码将所述地址文本信息补充完整;
其中,所述提取地址文本的关键信息的装置,还用于当一个所述单词匹配多个所述编码时,根据其左边的单词或编码确定其对应的唯一编码。
7.一种提取地址文本的关键信息的装置,其特征在于,包括存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述的提取地址文本的关键信息的方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的提取地址文本的关键信息的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亿企赢网络科技有限公司,未经亿企赢网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910919161.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:餐饮类型确定方法和装置
- 下一篇:一种汉字词语频度存储方法