Qcon上海2014

Spark应用案例分析

Apache Spark作为新一代大数据分析平台,以全能分析闻名,可以在单个软件栈内混合批处理、流式计算、以机器学习为代表的迭代型计算、关系查询、交互式查询、图计算等多种分析范式,是搭建一体化大数据流水线的极佳选择。在部署Spark集群、设计Spark应用时有哪些方面的问题需要考量?从零起步的创业公司和身怀一系列遗留系统的大公司面临的挑战有何不同?Spark一体化大数据流水线的愿景是否带来了真实的收益?Spark各个组件在不同公司的应用情况如何?本演讲试图通过国内外多家不同类型公司的真实Spark应用案例为上述问题提供参考。