[发明专利]一种在网络用车系统中使用TF-IDF评估承运车辆与地域相关性的方法在审
申请号: | 201510245529.4 | 申请日: | 2015-05-14 |
公开(公告)号: | CN104866959A | 公开(公告)日: | 2015-08-26 |
发明(设计)人: | 汤鹏;王柏 | 申请(专利权)人: | 北京东方车云信息技术有限公司 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q50/30 |
代理公司: | 北京万慧达知识产权代理有限公司 11111 | 代理人: | 敖列伟;李春晅 |
地址: | 100080 北京市海淀区北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 系统 使用 tf idf 评估 承运 车辆 地域 相关性 方法 | ||
技术领域
本发明涉及到网络用车领域中的评估承运车辆与地域相关性的方法,更具体地涉及到以TF-IDF评估承运车辆与地域相关性的方法。
背景技术
在网络用车领域中,承运车辆通常与地域有较强的关联性。例如,由于承运司机对不同地域的熟悉程度和对不同类型地域的偏好,造成承运车辆接单时对其运营的地域有较强的选择性。为了将用车的订单更准确和高效地发送给适合于承运的司机,需要对承运车辆与地域相关性进行评估。
TF-IDF(term frequency–inverse document frequency)是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的代表能力。TF-IDF实际上是:TF词频(Term Frequency)与IDF逆向文件频率(Inverse Document Frequency)的乘积。词频TF表示词条在文档d中出现的频率。实际上,如果一个词条在一个文档中频繁出现,则说明该词条能够更好代表这个文本的特征。IDF的主要思想是:如果包含某个词条t的文档越少,那么IDF越大,则说明词条t具有很好代表能力。
TF-IDF在信息检索技术中已经有成功的应用,例如在搜索引擎中有广泛应用。但是,如何将其应用到网络用车系统中,尤其是应用到承运车辆与地域相关性的评估中,仍然是现有技术中待解决的问题。
发明内容
针对上述问题,本发明将TF-IDF统计方法创造性地应用到了网络用车系统中的承运车辆与地域相关性的评估中,提出了一种在网络用车系统中使 用TF-IDF评估承运车辆与地域相关性的方法,所述方法包括如下步骤:
将承运车辆的运营区域划分为多个区块Bi;
在给定的一个时间段内,
统计出参与运营的承运车辆总数S,
对任一区块Bi,统计出曾经以其作为运营起点或终点的承运车辆数目Ni,
计算出区块Bi的IDFi=log(S/Ni);
对每个承运车辆j,统计出其总的运营次数nj和区块Bi作为其运营起点或终点的次数ni,j,
计算出区块Bi在承运车辆j中的TFi,j=ni,j/nj;
那么,承运车辆j与区块Bi的相关度Ri,j=TFi,j*IDFi。
优选地,在所述的评估承运车辆和地域相关性的方法中,所述区块Bi是将城市按经纬度划分成的矩形块。
优选地,在所述的评估承运车辆和地域相关性的方法中,所述矩形块的大小不相同,并且用车密度较大的区域所述矩形块较小。
优选地,在所述的评估承运车辆和地域相关性的方法中,所述区块Bi是形状不规则的区域。
优选地,在所述的评估承运车辆和地域相关性的方法中,所给定的时间段为最近一周或一个月或更长的时间段。
本发明另外一方面提出了一种在网络用车系统中使用TF-IDF评估承运车辆与地域相关性的方法,所述方法包括如下步骤:
将承运车辆的运营区域划分为多个区块Bi,并为每个区块定义一种或多种地域标签Ci1,Ci2,…Cin;
在给定的一个时间段内,
统计出参与运营的承运车辆总数S,
对任一地域标签Ci,统计出曾经以其作为运营起点或终点的承运车辆数目Ni,
计算出地域标签Ci的IDFi=log(S/Ni);
对每个承运车辆j,统计出其总的运营次数nj和有标签Ci的地域作为其运营起点或终点的次数ni,j,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京东方车云信息技术有限公司,未经北京东方车云信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510245529.4/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理