[发明专利]用户活动模式划分及属性推测方法在审
申请号: | 201610442680.1 | 申请日: | 2016-06-20 |
公开(公告)号: | CN107527313A | 公开(公告)日: | 2017-12-29 |
发明(设计)人: | 杨超;朱荣荣;许项东 | 申请(专利权)人: | 同济大学 |
主分类号: | G06Q50/30 | 分类号: | G06Q50/30;G06K9/62 |
代理公司: | 广州华进联合专利商标代理有限公司44224 | 代理人: | 方高明 |
地址: | 201804 上海市嘉定区曹安公*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户 活动 模式 划分 属性 推测 方法 | ||
技术领域
本发明涉及智能设备数据分析,特别是涉及一种用户活动模式划分及属性推测方法。
背景技术
城市用户出行活动信息是城市规划、交通管理和用户活动研究的重要依据,一般通过用户出行调查等传统方式获取,人力、物力、时间耗费都非常大。随着智能交通系统、智慧城市等概念的提出,交通大数据(如公交IC卡、手机信令数据等)由于其用户的覆盖面广、无需特殊的数据采集设备、数据获取成本较低、数据量大等优点,开始被用于用户出行信息提取和个体活动模式分析等领域。但是通过交通大数据虽然可以得到带时间戳的位置信息从而得到用户一天的移动轨迹,但由于其数据固有的缺陷或隐私保护问题,无法得到用户具体的社会经济属性信息。
目前对基于交通大数据的活动模式提取方法的研究较为有限,且提取的活动模式中,个体活动特征信息较为单一。以往是根据个体的历史位置数据来计算个体的停留点,形成包含停留时间的停留点序列。通过使用主题模型对停留点序列片段进行聚类,以获得个体活动模式。其在主题模型使用中,将用户停留的历史地点(如:某公寓楼、星巴克、体育馆等)作为“词语”,将用户每一天在不同地点停留的时长作为输入数据。其将活动模式定义为一天中在不同地点停留总时长的分布。这种简化的处理,忽略了原始用户位置数据中的许多有用的信息,使该方法得到的活动模式内容较为单一,仅有停留时长信息,没有其他更具体的内容。
发明内容
基于此,有必要针对大数据分析得到的用户活动模式内容单一,用户社会经济属性少的问题,提供一种能根据大数据分析出用户的多种活动模式并获得用户的社会经济属性信息的一种用户活动模式划分及属性推测方法。
一种用户活动模式划分及属性推测方法,包括:
基于含有个人属性和出行信息的调查数据构建主题模型,使用所述主题模型输出第一主题概率分布,并根据所述第一主题概率分布构建活动模式划分模型;所述活动模式划分模型包括多种活动模式,根据各所述活动模式对应的用户社会经济属性信息构建基于贝叶斯网络的居民属性反推模型;
获取待补全的大数据;
对所述大数据进行数据清洗获得用户的移动轨迹,通过行程识别划分用户停留区段和出行区段,获得用户的出行链;结合停留时间段,停留时长以及停留次数的信息进行职住地判断,获取用户的职住地位置;
根据所述出行链及用户职住地位置获得用户的预设时间的位置序列,将位置序列输入到所述主题模型中,以得到用户活动的第二主题概率分布;
将所述第二主题概率分布输入所述活动模式划分模型中,以得到用户的活动模式;
将所述活动模式输入所述基于贝叶斯网络的居民属性反推模型中,以获得各所述活动模式对应的用户的社会经济属性信息。
在其中一个实施例中,所述根据所述出行链及用户职住地位置获得用户的预设时间的位置序列包括以下步骤:将一天24小时按照半个小时为单位进行离散化,共分为48个时间段;根据不同时段的活动特性,将一天划分为多个大时区;根据所述活动轨迹确定每个时间段各用户的活动目的标签。
在其中一个实施例中,所述活动目的标签包括家、工作地、学校、购物、文化娱乐、业务以及接送人。
在其中一个实施例中,所述位置序列包括多个子位置序列,所述子位置序列由每个所述时间段的连续两个所述活动目的标签以及该所述时间段所属的大时区组成,统计所有用户一天内所有子位置序列的词频构成位置序列矩阵。
在其中一个实施例中,构建主题模型包括以下步骤:基于含有个人属性和出行信息的传统调查数据提取活动链数据,根据用户出行目的确定用户一天的位置序列作为主题模型的输入数据;根据所述位置序列确定最佳主题数;根据所述最佳主题数构建所述主题模型。
在其中一个实施例中,所述确定最佳主题数包括以下步骤:
计算最佳主题数的混淆度perplexity,公式如下:
其中,Nm为时间段的个数等于47,M是模型,wm是位置序列中未出现的词语的总数量,Nm是位置序列中出现的词语的总数量;
从调查数据中随机取训练集和测试集,使用所述训练集数据求解模型,并用所述测试集数据计算混淆度perplexity;
测试主题数Ktopic从2到50,每个对应的主题数Ktopic训练10次,求混淆度perplexity的平均值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610442680.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:快件地址处理系统和方法
- 下一篇:一种用于通勤车预约规划的信息系统和方法