[发明专利]一种中文地址处理方法及系统有效
申请号: | 201610851263.2 | 申请日: | 2016-09-26 |
公开(公告)号: | CN106445918B | 公开(公告)日: | 2019-08-27 |
发明(设计)人: | 贺彪;王维;郭仁忠;陈学业;王伟玺;李晓明;李威阳;张钰;李霖 | 申请(专利权)人: | 深圳市数字城市工程研究中心 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 张全文 |
地址: | 518000 广东省深圳市福田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明适用于数据处理领域,提供了一种中文地址处理方法及系统,包括:通过N种预设算法获取待分词地址的N个第一分词集合,每一种预设算法分别基于一类字符统计特征对待分词地址进行分词;通过分词合并算法对N个第一分词集合进行汇总,获取第二分词集合;通过分词矫正算法对出现分词异常状况的第二分词集合进行处理,得到第三分词集合;将第三分词集合中以地址要素结尾的分词作为第一分词结果,将以非地址要素结尾的分词进行矫正及合并,得到第二分词结果;第一分词结果与第二分词结果的集合输出为待分词地址的最终分词结果。本发明实施例能够逐级调整不符合实际语义的分词,提高对地址词的识别精度,解决了现有的分词方法分词准确率低问题。 | ||
搜索关键词: | 一种 中文 地址 处理 方法 系统 | ||
【主权项】:
1.一种中文地址处理方法,其特征在于,包括:通过N种预设算法获取待分词地址的N个第一分词集合,所述N种预设算法中的每一种分别基于一类字符统计特征对所述待分词地址进行分词;通过分词合并算法对所述N个第一分词集合进行汇总处理,获取第二分词集合;通过分词矫正算法对出现分词异常状况的所述第二分词集合进行处理,以获取第三分词集合;在所述第三分词集合中,将以地址要素结尾的分词作为第一分词结果,将以非地址要素结尾的分词进行矫正及合并处理,得到第二分词结果;将所述第一分词结果与所述第二分词结果的集合输出为所述待分词地址的最终分词结果;其中,所述N为大于1的整数;通过第一预设算法获取待分词地址的一个第一分词集合包括:根据M个预设的固定字长分词算法,获取所述待分词地址的M个第一分词候选集;所述M个第一分词候选集分别对应M个第二分词候选集,对于每个所述第一分词候选集中的每个分词,判断所述分词、所述分词的前邻接词以及所述分词的后邻接词在地址库中的词频大小,将其中所述词频最大的分词存入对应的所述第二分词候选集;在所述M个第二分词候选集中获取词频最大的第一共字分词,并与所述M个第二分词候选集中除所述第一共字分词外的字符共同输出为一个第一分词集合;其中,所述M为大于1的整数,所述第一共字分词为所述待分词地址中的同一字符在所述M个第二分词候选集中构成的不同分词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市数字城市工程研究中心,未经深圳市数字城市工程研究中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610851263.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于模式的自举中文实体抽取方法
- 下一篇:一种情感分类方法及装置