[发明专利]一种提取地址文本的关键信息的方法、装置及介质有效
申请号: | 201910919161.3 | 申请日: | 2019-09-26 |
公开(公告)号: | CN110688851B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 史源源;王培勇;陈宏仁 | 申请(专利权)人: | 亿企赢网络科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/242;G06F16/36 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 丁曼曼 |
地址: | 200120 上海市浦东新区中国*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提取 地址 文本 关键 信息 方法 装置 介质 | ||
本发明公开了一种提取地址文本的关键信息的方法、装置及介质,其中,该方法包括:获取地址文本信息;根据词典包含的地址名称将地址文本信息拆分成单词并获取单词对应的编码;词典由地址名称与编码相互对照的表组成;判断各个单词的编码长度是否符合特定要求;如果否,则根据词典以及各单词对应的编码将地址文本信息补充完整。本发明通过根据由地址名称与编码相互对照的表组成的词典将地址文本信息拆分成单词以确保分词结果的准确,通过单词的编码将地址文本信息补充完整且减少了对人工的需求量。
技术领域
本发明涉及计算机领域,特别是涉及一种提取地址文本的关键信息的方法、装置及介质。
背景技术
随着大数据存储与分析技术的提升,纳税人的多维度地址信息将被运用到更多的税务业务场景下,如税源分析、交易分析、建筑行业地址分析等。
但是纳税人登记信息表中的注册登记地址、生产经营地址,各类发票备注栏中根据相关规定要求填写的补充信息:货运发票的起始地址、建筑安装类发票的工程地址大多由纳税人自行填写,往往是非结构化的文本数据,难以直接使用。
当前比较常见的处理地址文本信息的做法是使用结巴分词,以‘杭州市余杭区五常街道西溪润景大厦’为例,分词结果为['杭州市','余杭区','五常','街道','西溪','润景','大厦'],但是,其中的‘五常街道’应该是一个词,而且,这条地址中缺少省份信息。
现有的依据结巴分词对地址文本信息进行分词的结果不准确且不能依据结巴分词对缺失的数据进行补全,需要大量的人工干预。
发明内容
本发明的目的是提供一种提取地址文本的关键信息的方法、装置及介质,通过根据由地址名称与编码相互对照的表组成的词典将地址文本信息拆分成单词以确保分词结果的准确,通过单词的编码将地址文本信息补充完整,减少了对人工的需求量。
为实现上述目的,本发明提供一种提取地址文本的关键信息的方法,包括:
获取地址文本信息;
根据词典包含的地址名称将所述地址文本信息拆分成单词并获取所述单词对应的编码;
所述词典由所述地址名称与所述编码相互对照的表组成;
判断各个所述单词的编码长度是否符合特定要求;
如果否,则根据所述词典以及各单词对应的编码将所述地址文本信息补充完整。
优选地,获取地址名称与编码相互对照的表具体为:
获取国家统计局发布的统计用区划和城乡划分代码数据;
所述统计用区划和城乡划分代码数据由统计用区划代码和名称组成;
删除所述名称与常用词词库重叠的词以形成所述地址名称;
按照预设规则对所述统计用区划代码分等级进行处理以形成所述编码。
优选地,所述将所述地址文本信息拆分成单词具体为:
将所述地址文本信息从左至右拆分成单词。
优选地,当一个所述单词匹配多个所述编码时还包括:
根据其左边的单词或编码确定其对应的唯一编码。
优选地,还包括:
依据国家统计局更新的统计用区划和城乡划分代码数据更新所述词典。
优选地,还包括:
将根据所述词典分词后剩下的数据按照正则表达式处理。
为实现上述目的,本发明还提供一种提取地址文本的关键信息的装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亿企赢网络科技有限公司,未经亿企赢网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910919161.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:餐饮类型确定方法和装置
- 下一篇:一种汉字词语频度存储方法