Spark大数据分析项目实训
博雅数智(嘉兴)教育科技有限公司
现代数字城市(盐城)研究院
腾讯会议会议码:883-128-787
北京大数据研究院研究员,北京大学计算机博士、计算数学博士后。大数据教育联盟秘书长。北京大数据协会副会长。中国计算机学会数据库专委会委员。阿里云MVP(最有价值专家)。北京市大数据人才培训示范基地培训负责人。参与编著国内第一本数据科学中文教材《数据科学导引》。
Spark已经成为大规模结构化数据分析和建模的重要平台。本课程通过一个真实的交通大数据项目,利用千万级城市出租车行程记录,讲解如何应用Spark DataFrame、Spark MLlib和GeoPandas等工具进行大规模数据分析、数据可视化和数据建模。课程的主要内容如下:
·Spark基础介绍
·项目背景和数据预处理
·交通数据集探索性分析
·GeoPandas基础介绍
·城市特定区域交通场景分析
·利用Spark Mllib构建行程费用预测模型
本次课程四次课,课程时间:8月25日-26日,每天上午10:00-11:30,下午14:30-16:00