您所在的位置: 成果库 基于海量公交数据的人群画像算法

基于海量公交数据的人群画像算法

发布时间: 2021-03-25

来源: 科创项目库

基本信息

合作方式: 技术转让
成果类型: 发明专利
行业领域:
新一代信息技术产业,信息传输、软件和信息技术服务业
成果介绍

现代公共交通技术利用先进的公交刷卡收费系统和公交刷卡信息数据库,同时每天记录着上百万条的公交出行数据。充分挖掘和利用公交乘客的刷卡数据,可以准确地分析出城市中个人或群体的日常活动规律。这些规律可以对城市规划、社会行为分析等多个应用领域提供数据支撑,方便城市资源的合理调度与建设,更好地帮助管理部门和城市建设者对城市建设和发展做出最优决策。虽然针对公交车刷卡数据的分析已有多年研究,但大多数研究主要集中在识别或预测活动地点、出行方式挖掘。这些研究本质上是确定人们在一天中的特定时间出发和停留的地方——揭示其居住地、工作点和“第三个地方”。交通数据隐藏着用户的日常行为,当用户群体具有相似的运动轨迹,可以认为该群体具有相似的特征,该特征即为该群体的人群画像。

本专利在上述研究的基础上对量公交数据进行分类,即根据公交出行轨迹的相似性来分析人群轨迹特征,再使用自然语言描述人群轨迹的特征,从而可以更加清晰的了解人群出行规律,描绘出人群画像。但海量公交数据处理存在耗时、质量低、解释难等问题。因此本研究提出一种海量公交数据人群画像的系统化解决策略,该策略包括三个部分:第一,基于PageRank算法筛选出经过重要站点的人群轨迹,极大减少目标人群的轨迹数据;第二,提出轨迹文本化分析方法提高人群画像的可解释性;第三,分析确定基于余弦距离的K-means算法作为人群画像分类的聚类算法。所提出的算法在3000万乘客公交出行数据上运行的结果表明:提出的解决策略能够较为系统性解决海量公交数据中人群画像问题;基于余弦距离的K-means算法对人群画像聚类效果最好且准确率接近80%;将人群画像及其轨迹使用Flow Map进行可视化展示,结果符合真实世界中人群的行为特征。

成果亮点
团队介绍
成果资料