[发明专利]兴趣点属性的索引数据库的生成方法和装置有效
申请号: | 200910084408.0 | 申请日: | 2009-05-13 |
公开(公告)号: | CN101551820A | 公开(公告)日: | 2009-10-07 |
发明(设计)人: | 黄栋;曹晓航 | 申请(专利权)人: | 北京四维图新科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G01C21/26 |
代理公司: | 北京银龙知识产权代理有限公司 | 代理人: | 许 静 |
地址: | 100083北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 兴趣 属性 索引 数据库 生成 方法 装置 | ||
技术领域
本发明涉及数据库领域,特别是指一种兴趣点属性的索引数据库的生成方法和装置。
背景技术
现有技术中,为了提高对兴趣点数据库的检索性能,采用倒排索引技术建立索引机制。兴趣点(POI,Point of Interest)是导航电子地图上有特定位置和属性的点位。兴趣点数据库,则是管理大量兴趣点的属性的系统。兴趣点数据库有一个相应的索引数据库,为兴趣点索引数据库。索引是海量数据库不可缺少的,这是因为索引从某种意义上是一种将原数据库按检索要求排序后的数据库,它的存在能够大大提高检索的效率。兴趣点属性可以为兴趣点的名称、地址信息等。兴趣点属性由文字单元组成,文字单元可以为汉字或拼音。也就是说,兴趣点属性的表示方法可以分为两种,一种以是以汉字为主的形式表示,同时可以包括少量字母、数字、符号等,我们称其为汉字属性,例如兴趣点1:{编号:100,名称:“东方商厦A”},其中“东”、“方”、“A”为最小组成元素。另一种以拼音的形式表示,同时可以包括少量字母、数字、符号等,我们称其为拼音属性,例如兴趣点1:{编号:100,名称:“dong fang shang sha A”},其中“dong”、“fang”、“A”为最小组成元素。
以下描述采用倒排技术创建兴趣点属性的索引数据库的方法。通常仅知道汉字在哪些兴趣点中出现还不够,还需要知道汉字在兴趣点中出现的次数和出现的位置,索引结构如下:
关键字:{兴趣点1编号,出现频率,[位置1,位置2,...]},
{兴趣点2编号,出现频率,[位置1,位置2,...]},...
假设有三个兴趣点,其编号和兴趣点名称如下:
兴趣点1:{编号:100,名称:“东方商厦”}
兴趣点2:(编号:120,名称:“浦东新区东方路”)
兴趣点3:(编号:150,名称:“浦东新区东明路”)
按照前面介绍的索引结构,相应建立的倒排索引如下:
“东”:{100,1,[0]},{120,2,[1,4]},{150,2,[1,4]}
“方”:{100,1,[1]},{120,1,[5]}
“商”:{100,1,[2]}
“厦”:{100,1,[3]}
“浦”:{120,1,[0]},{150,1,[0]}
“新”:{120,1,[2]},{150,1,[2]}
“区”:{120,1,[3]},{150,1,[3]}
“明”:{150,1,[5]}
“路”:{120,1,[6]},{150,1,[6]}
以下描述倒排表检索技术。检索时,假设待查汉字串为“东方路”,首先通过汉字列表定位各汉字的索引数据,然后对数据进行分析。
“东”的索引数据中含有兴趣点编号为{100,120,150};“方”的索引数据中含有兴趣点编号为{100,120};“路”的索引数据中含有兴趣点编号为{120,150}。取交集后,只有兴趣点编号为120的记录符合条件。
“东”在兴趣点编号为120的记录中的位置为[1,4],其中位置“4”与“方”在兴趣点编号为120的记录中的位置“5”的差值刚好是汉字“东”的长度。同样“方”和“路”在兴趣点编号为120的记录中的位置差值刚好是汉字“方”的长度。因此兴趣点编号120(其名称为“浦东新区东方路”)为一个命中兴趣点。
以上可知,倒排表模型创建索引的速度较快,可以解决兴趣点属性的高效检索功能。但是,倒排索引结构包括兴趣点编号,兴趣点名称索引数据库需要存储大规模的文本信息,特别是需要存储兴趣点名称的位置信息,空间开销也比较大。
发明内容
本发明要解决的技术问题是提供一种减少空间开销的兴趣点属性的索引数据库的生成方法和装置。
为解决上述技术问题,本发明的实施例提供技术方案如下:
一方面,提供一种兴趣点属性的索引数据库的生成方法,包括:
统计所述兴趣点属性中出现的不同文字单元;
获取所述文字单元的编码;
查找包含所述文字单元的兴趣点属性以及所述文字单元在所述兴趣点属性中的位置;
根据所述兴趣点属性对应的兴趣点编号之间差值的大小以及所述文字单元在所述兴趣点属性中的位置,生成所述文字单元的索引记录列表;
根据所述文字单元的索引记录列表的长度,生成所述文字单元索引记录列表的地址信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京四维图新科技股份有限公司,未经北京四维图新科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910084408.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种存储卡身份认证方法及其系统
- 下一篇:用于蜂窝网接入的方法和装置