[发明专利]一种连锁类兴趣点数据识别方法及装置有效
申请号: | 201310305977.X | 申请日: | 2013-07-19 |
公开(公告)号: | CN103390044B | 公开(公告)日: | 2017-02-08 |
发明(设计)人: | 史子博 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙)11412 | 代理人: | 袁媛 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 连锁 兴趣 数据 识别 方法 装置 | ||
技术领域
本发明涉及地理信息技术领域,特别是涉及一种连锁类兴趣点数据识别方法及装置。
背景技术
兴趣点(Point of Interest,POI)指的是人们感兴趣的地理对象数据,一个POI代表一个位置实体,例如餐馆、公园、商场等等。POI数据是地理信息系统中的重要元素,也是人们在使用地理信息服务时最为关注的内容。
在现实生活中,很多POI数据间都存在着连锁特性,例如肯德基xxx店、其中“xxx”的内容一般对应着不同地名。对于地理信息服务系统而言,如果能将具有连锁特性的POI数据分类整理,就可以进一步提供更多贴近用户实际需求的服务。
目前的POI数据中,一般不会直接携带连锁信息。为了从海量的兴趣点数据中识别出具有连锁关系的兴趣点数据,现有技术利用连锁名称特征进行自动识别,例如,通过匹配“xxx分店”、“xxx分公司”等模型,可以自动识别出大量具有连锁特征的兴趣点。然而,这种方式的缺陷在于,仅仅是对兴趣点的名称进行个体识别,却忽略了“连锁”本身所包含的相关意义,例如“肯德基xxx店”和“麦当劳xxx店”,从个体的角度看,两者者都分别具有连锁特征,然而将两者放在一起看,又显然不具有“互为连锁”的关系。因此对于这样的识别结果,仍然需要进一步处理,才能满足实际需求。
发明内容
为解决上述技术问题,本发明实施例提供一种连锁类兴趣点数据识别方法及装置,技术方案如下:
本发明实施例提供一种连锁类兴趣点数据识别方法,该方法包括:
获得待识别的兴趣点数据集合;
对集合中兴趣点的名称文本进行切分,得到该文本的前i个切分片段Ti,其中i=1,2,3…;
根据切分片段的文本内容,在所述集合范围内统计每种Ti的文本出现次数C(Ti);
在统计结果中,搜索令C(Ti)-C(Ti+1)大于预设阈值的Ti,将C(Ti)所对应的多个兴趣点数据识别为互为连锁的兴趣点数据。
根据本发明的一种具体实施方式,所述获得待识别的兴趣点数据集合,包括:
根据连锁类兴趣点的名称特征模型,对待识别的兴趣点数据集合进行预先筛选。
根据本发明的一种具体实施方式,所述方法还包括:
对于某个兴趣点的名称文本切分结果Ti(i=1,2,3…),
如果根据所述统计结果,存在多个i值使得C(Ti)-C(Ti+1)大于预设阈值,则将C(Timax)所对应的多个兴趣点数据识别为互为连锁的兴趣点数据;
其中imax为所述多个i值中的最大值。
根据本发明的一种具体实施方式,所述对集合中兴趣点的名称文本进行切分,包括:
利用分词技术对集合中兴趣点的名称文本进行切分。
根据本发明的一种具体实施方式,所述方法还包括:
根据连锁类兴趣点数据的识别结果,确定具有连锁搜索需求的搜索文本。根据本发明的一种具体实施方式,所述根据连锁类兴趣点数据的识别结果,确定具有连锁搜索需求的搜索文本,包括:
将互为连锁的兴趣点名称和/或连锁前缀所对应的文本确定为具有连锁搜索需求的搜索文本。
根据本发明的一种具体实施方式,所述根据连锁类兴趣点数据的识别结果,确定具有连锁搜索需求的搜索文本,包括:
从搜索行为日志中,提取用户使用的历史搜索关键词;
判断所述关键词对应的兴趣点检索结果中,互为连锁的兴趣点数据的数量是否满足预设的要求,如果是,则将该关键词确定为具有连锁搜索需求的搜索文本。
根据本发明的一种具体实施方式,所述根据连锁类兴趣点数据的识别结果,确定具有连锁搜索需求的搜索文本,包括:
从搜索行为日志中,提取用户使用的历史搜索关键词;
统计用户在使用所述关键词进行搜索后对各种检索结果的点击次数,如果对存在连锁关系的兴趣点数据的点击次数满足预设的要求,则将该关键词确定为具有连锁搜索需求的搜索文本。
本发明实施例还提供一种连锁类兴趣点数据识别装置,该装置包括:
数据获得单元,用于获得待识别的兴趣点数据集合;
切分单元,用于对集合中兴趣点的名称文本进行切分,得到该文本的前i个切分片段Ti,其中i=1,2,3…;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310305977.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置