Spark——新一代内存计算大数据平台
时间:2014年10月15日 地址:上海•光大会展中心国际大酒店
大会特邀合作伙伴:北京小象科技有限公司
大会特邀合作伙伴:北京小象科技有限公司
Spark
2014年,在大数据领域里最热的话题是Spark。对于数据体量适合的使用场景来说,Spark大数据平台显得非常有吸引力。 其优势首先在于先进的内存计算技术,对比传统的硬盘处理方式,在性能上有了数量级的提升;其次,Spark生态系统可以同时支持批处理计算、流计算、交互查询计算、图计算等多种计算框架,数据使用效率大大提高;最后,Spark加入Apache阵营,商业载体DataBricks成立,和大数据技术巨头Cloudera建立战略联盟,其商业化前景被普遍看好。 本届大会特邀小象学院作为合作伙伴,汇集大数据技术精英,共同打造一场涵盖Spark整个生态系统的专场培训。
课程体系
- 新一代内存计算大数据平台——Spark(上午)
- Part-1 Spark生态系统
- >Spark生态系统完整概述
- Part-2 Spark编程模型
- >Spark生态系统概述
- >回顾Hadoop MapReduce
- >Spark运行模式
- >RDD
- Spark运行时模型简介
- >缓存策略介绍
- >transformation
- >action
- >lineage
- >action
- >容错处理
- >action
- >宽依赖与窄依赖
- >action
- >集群配置
- Part-3 深入Spark内核
- >Spark术语解释
- >集群概览
- >核心组件
- >Spark术语解释
- >数据本地性
- >常用RDD
- >任务调度
- >DAGScheduler
- >TaskScheduler
- >Task细节
- >广播变量
- >累加器
- >性能调优
- 新一代内存计算大数据平台——Spark(下午)
- Part-4 Spark Streaming
- >DStream
- >数据源
- >无状态transformation与有状态transformation
- >checkpoint
- >容错
- >性能优化
- Part-5 Spark SQL
- >Spark SQL架构
- >Parquet支持
- >DSL
- >SQL on RDD
- >Hive支持
- >UDF
- >JDBC Server
- Part-6 MLlib
- >LinearRegression
- >K-Means
- >Collaborative Filtering
- Part-7 图计算GraphX
- >现存的图计算框架
- >Table Operators
- >Graph Operators
- >GraphX设计
培训门票
Spark技术培训门票 | ||
---|---|---|
课程 | 个人票(<3) | 团购票(≥3) |
Spark技术培训门票 | 1599元/张 | 1280元/张 |
注: 培训门票包括10月15日相应培训课程、教材资料及午餐
购票咨询热线:156-1144-0609
金牌讲师
-
陈超
- ChinaHadoop小象社区核心成员
- 嘉宾介绍:参与多个数据分析与数据挖掘相关项目。 近年来一直专注于分布式计算与机器学习相关领域。国内较早的Spark研究与使用者,Spark Contributor。目前专注于基于Spark平台的大数据处理。