[发明专利]一种地理信息领域的关键字提取的方法及装置无效
| 申请号: | 201010265879.4 | 申请日: | 2010-08-27 |
| 公开(公告)号: | CN102375863A | 公开(公告)日: | 2012-03-14 |
| 发明(设计)人: | 陈小宾;申排伟;杜宇程 | 申请(专利权)人: | 北京四维图新科技股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静 |
| 地址: | 100028 北京市朝阳区曙*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 地理信息 领域 关键字 提取 方法 装置 | ||
技术领域
本发明属于电数字数据处理技术领域,尤其涉及一种地理信息领域的关键字提取的方法及装置。
背景技术
兴趣点(POI,Point Of Interest)是指可查找、可定位的包含衣食住行等附属社会信息的点要素。在POI生产过程中,通常采用基于领域关键字词典的命名实体识别、POI数据自动分类等技术辅助人工进行处理,以大幅提高生产效率。领域关键字的提取是构建领域关键字词典的重要环节。
目前,常用的关键字提取方法主要有:基于中文分词的关键字提取方法和基于N-gram模型的关键字提取方法。但现有的关键字提取方法存在以下问题:
1)基于中文分词的关键字提取方法,主要问题是对POI名称数据切分过于细碎,导致长度上不能满足领域关键字的要求,造成准确率低;
2)基于N-gram(N个连续符号的序列)模型的关键字提取方法,是大词汇连续语音识别中常用的一种语言模型,由于获取的是以单个字为最小粒度单元组合而成,会造成无效的噪声数据过多,导致处理速度慢。
由此可知,现有的关键字提取方法由于没有考虑到地理信息领域中数据的特性,导致现有的关键字提取方法在地理信息领域中适应性不强。
发明内容
为了解决上述问题,本发明的目的是提供一种地理信息领域的关键字提取的方法及装置,通过基于中文分词与N-gram模型相结合的候选关键字的提取,能兼顾地理信息领域中关键字提取的效率和准确率。
为了达到上述目的,本发明提供一种地理信息领域的关键字提取的方法,所述提取方法包括:
步骤1、利用中文分词工具对地理信息数据库中的待处理数据进行分词处理;
步骤2、以分词得到的短语为最小粒度单元,并结合N-gram模型获取长度不超过预设的关键字最大长度值的所有候选关键字;
步骤3、根据所述候选关键字的类型,将所述候选关键字记录到与所述类型对应的数据词典中。
优选的,在所述步骤1之前,所述提取方法还包括:
对所述地理信息数据库中待处理数据进行格式的规范化处理。
优选的,在对所述待处理数据进行格式的规范化处理之前,所述方法还包括:
判断是否处理完所述地理信息数据库中所有待处理数据;
如果处理完,则统计每个所述候选关键字的词频,并忽略所述词频低于预设词频阈值的候选关键字,然后执行所述步骤3;
若没有处理完,则从所述地理信息数据库中获取下一条待处理数据,然后返回所述步骤1。
优选的,所述步骤3之前,所述方法还包括:
判断当前的所述候选关键字是否已经存在于历史数据词典中,若是,则忽略当前的所述候选关键字,获取下一个候选关键字;否则,保存当前的所述候选关键字,然后执行所述步骤3。
优选的,所述历史数据词典中包括:噪声数据和/或已提取的关键字数据。
优选的,所述候选关键字的类型包括:名称关键字、行业特点关键字、功能特征关键字和噪声数据。
优选的,所述将所述候选关键字记录到与所述类型对应的数据词典中的步骤具体为:
将所述名称关键字记录到名称关键字的数据词典中;
将所述行业特点关键字记录到行业特点关键字的数据词典中;
将所述功能特征关键字记录到功能特征关键字的数据词典中;和/或
将所述噪声数据记录到噪声数据词典中。
为了达到上述目的,本发明还提供一种地理信息领域的关键字提取的装置,所述装置包括:
中文分词模块,用于利用中文分词工具对地理信息数据库中的待处理数据进行分词处理;
候选关键字获取模块,用于以分词得到的短语为最小粒度单元,并结合N-gram模型获取长度不超过预设的关键字最大长度值的所有候选关键字;
关键字提取模块,用于根据所述候选关键字的类型,将所述候选关键字记录到与所述类型对应的数据词典中。
优选的,所述装置还包括:
词频统计模块,分别与所述候选关键字获取模块和所述关键字提取模块连接,用于统计所述候选关键字获取模块获取的候选关键字的词频,并将所述词频大于等于预设词频阈值的关键字发送给所述关键字提取模块。
优选的,所述装置还包括:
历史数据词典构建模块,与所述关键字提取模块连接,用于根据关键字的类型获取关键字数据和/或噪声数据,并构建历史数据词典。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京四维图新科技股份有限公司,未经北京四维图新科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010265879.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:耳机定位和保持
- 下一篇:一种薄壁镁合金件的压铸方法





