[发明专利]一种用于地点语义识别的数据库的构建方法及系统有效
申请号: | 201310078531.8 | 申请日: | 2013-03-12 |
公开(公告)号: | CN104050173B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 梅怀博 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/29 | 分类号: | G06F16/29;G06F16/21 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 地点 语义 识别 数据库 构建 方法 系统 | ||
1.一种用于地点语义识别的数据库的构建方法,其特征在于,该方法包括:
依据预设样本区域的定位历史日志统计样本区域内的定位请求量;
利用定位请求量和定位历史日志中的定位请求时间生成样本区域的定位请求曲线特征;
从样本区域的定位请求曲线特征中选出样本区域的特征时段,并依据特征时段或定位请求量获得样本区域的特征指数;
利用样本区域的特征指数和定位请求曲线特征构建地点语义样本库;
依据预设目标区域的定位历史日志和构建的地点语义样本库,获得目标区域与地点语义样本库中每个样本区域的曲线特征匹配系数和特征指数匹配系数;
将曲线特征匹配系数和特征指数匹配系数的乘积最高的样本区域的地点语义作为所述目标区域的地点语义。
2.根据权利要求1所述的方法,其特征在于,所述定位请求量为定位请求总量或定位请求用户量。
3.根据权利要求1所述的方法,其特征在于,
所述定位请求曲线特征的时间周期为一天,时间粒度为小时;或,
所述定位请求曲线特征的时间周期为一周,时间粒度为天;或,
所述定位请求曲线特征的时间周期为一个月,时间粒度为天;或,
所述定位请求曲线特征的时间周期为一年,时间粒度为月。
4.根据权利要求1所述的方法,其特征在于,所述样本区域的特征时段为:样本区域与其他样本区域的定位请求曲线特征的斜率差值超过预设的曲线斜率阈值的时段;或,样本区域的定位请求曲线特征中曲线斜率超过曲线斜率最大值或小于曲线斜率最小值的时段;或,样本区域的定位请求曲线特征中定位请求量超过定位请求量阈值的时段。
5.根据权利要求1所述的方法,其特征在于,所述依据特征时段获得样本区域的特征指数具体包括:
计算特征时段在定位请求曲线特征中的曲线斜率,将所述曲线斜率作为样本区域的特征指数;或,
计算两个特征时段的定位请求量的比值,将所述比值作为样本区域的特征指数。
6.根据权利要求1所述的方法,其特征在于,利用如下公式获得样本区域的特征指数:
其中,a表示特征指数,T表示特征区间,Q(D1|T)和Q(D2|T)分别表示特征区间T在不同时间的定位请求量。
7.根据权利要求1所述的方法,其特征在于,获得目标区域与地点语义样本库中样本区域的曲线特征匹配系数的方法为:
利用目标区域的定位历史日志生成目标区域的定位请求曲线特征y=f(t);
利用公式y'=f(t)/Max(f(t))对目标区域的定位请求曲线特征进行归一化处理,得到归一化曲线特征y',其中Max(f(t))为f(t)的最大值;
对地点语义样本库中的定位请求曲线特征进行归一化处理,得到归一化曲线特征Y'i,利用公式Δyi=y'-Y'i(i=1,2,……,N)得到y'与Y'i的归一化差分;
计算Δyi的期望值Ei和方差Di,利用公式ai=(1-|Ei|)(1-|Di|)得到曲线特征匹配系数ai。
8.根据权利要求1所述的方法,其特征在于,获得目标区域与地点语义样本库中样本区域的特征指数匹配系数的方法为:
选出目标区域的定位请求曲线特征的特征时段,得到每个特征时段的特征指数;
依据地点语义样本库得到每个样本区域的特征时段,提取其中具有相同特征时段的一组以上样本区域,每组样本区域包括两个以上样本区域;
获得目标区域在每组样本区域的相同特征时段的特征指数;
获得目标区域与每组样本区域中每个样本区域的特征指数的相似度,将相似度作为目标区域与样本区域的特征指数匹配系数bi。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310078531.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:移动终端的应用信息处理方法和装置
- 下一篇:片上系统及其操作方法