hadoop+hive+hbase的大数据行业应用-交通轨迹分析

发布时间：2023-01-14 11:32:08 所属栏目：大数据来源：互联网

导读：
案例描述
项目概要
项目背景：
随着互联网的深入发展，打车再也不是乘客呆呆的站在路口等待车辆的经过。随着各种打车软件的发展大数据运用，打车可以足不出户，就可以约到自己想要搭乘的汽

在这里插入图片描述

案例描述

项目概要

项目背景：

随着互联网的深入发展，打车再也不是乘客呆呆的站在路口等待车辆的经过。随着各种打车软件的发展大数据运用，打车可以足不出户，就可以约到自己想要搭乘的汽车。本实验主要是来探究生活中存在的打车难的问题，这个问题限制了我们有些时间的出行，有时浪费了我们大量的时间。在哪些地方容易打车，什么时候的车更容易搭乘，这是我们要着手解决的问题。

建设目标：

为了乘客能够高效，便捷的搭乘到出租车。本案例将利用某城市的出租车驾驶轨迹的数据，通过大数据分析算法等相关技能，对打车的现状进行分析，并最终用可视化的手段直观的展示分析结果。为用户提供决策支持。

需求分析

需求介绍：

根据已有的数据集，进行相应的特征工程后，实现机器学习算法的分发。根据预测的结果使用MapReduce、hive完成

出租车运行状态的统计，区域出租车分布的统计，最大程度将分析结果可视化，为该区域用户打车提供便利。

. 功能点：

实现特征工程，模型训练，模型测试，模型预测，结果细分，数据可视化

. 特征工程

加载csv文件，实现自定义schema的匹配。将表数据利用向量装配器的transform进行转换，构建特征向量。

模型训练：

选用k-means算法对原始数据进行预测，设置要聚类的簇数，设置输入，和标签列。

利用fit方法，进行模型训练。

获取聚类的中心

将训练好的model保存到本地

模型预测：

利用训练好的模型对测试集数据进行预测

结果细分：

利用mapreduce, hive对预测结果进行统计查询分析。

可视化展示

利用百度地图相关API 和 D3.JS 对结果进行展示

解决方案

. 架构简介：

本系统架构采用模块化设计，分为数据准备，解析csv数据，

构建特征向量，聚类模型训练，聚类模型测试，分析预测结果，数据可化

将待处理的文件存放到本地Linux的指定目录中

. 数据准备模块：

将待处理的文件存放到本地Linux的指定目录中

. 解析CSV模块：

通过hive加载第三方的插件，实现对原始数据字段的解析。

. 构建特征向量：

通过定义特征数组，匹配原始数据schema，利用VectorAssember设置相关的属性

. 聚类模型训练：

利用K-means模型对原始数据中的训练集数据，进行训练

. 聚类模型测试

利用测试集数据对模型进行测试

. 分析预测结果

利用hive对预测结果进行深入的分析

. 数据可视化

利用百度地图API 和D3.js对分析结果进行可视化展示。

. 技术名称：

序号技术名称所属模块优点掌握程度

1 hive 分析预测结果 4星

2 Kmeans 模型训练，模型预测算法接受参数 k ；然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。原理结单，容易实现 4星

3 百度地图API ， D3 js 可视化展示简单，便捷，代码量少 4星

准备工作

. 数据介绍：

通过已有的历史数据，进行相应的规则清洗后，存放到Linux本地，为实验做准备

. 字段说明：

序号字段描述

0 TID 汽车ID

1 Lon 维度

2 Lat 经度

3 Time 时间戳

特征工程

通过csv工具类和自定义Schema的创建，利用spark

向量装配器将原始数据映射为特征向量

模型训练

使用预处理方法将特征向量划分为train和test两个部分，利用k-means进行模型的训练。

模型测试

利用测试集数据，对模型的进行预测

分析预测结果

将预测的结果使用hive进行统计分析，实现具体的业务需求。

数据可视化

使用百度地图开发API 和 D3.js 对最终的预测结果进行可视化展示

（编辑：百客网 - 百科网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2022年优秀预测分析工	当大数据平台遇到K8s
大数据如何改变制造业	反映数据质量的八个指