全球软件开发大会上海站2014

田毅

北京Spark meetup创始人

微博:

从2010年起, 尝试独立编写分布式的业务处理平台. 2011年开始全面使用hadoop平台, 早期设计开发利用MapReduce构建可视化数据处理平台, 后逐步转向研究使用Hive分担电信行业传统数据仓库的复杂计算. 从2013年开始关注Spark, 目前致力于利用Spark技术的特性拓展电信行业的业务模式.

从2011年到2014年, 鉴证了Hadoop技术在电信行业中从小范围探索,到大规模推广使用, 从6-7台机器组成的小集群,到现在数百台的大数据处理平台. 先后使用HBase实现了电信业务场景中的单据类数据即时查询业务, 使用Shark实现了准实时用户标签统计分析平台.

2014年7月创建北京Spark Meetup小组, 目前已经成功举办2次, 活动中邀请了来自Databricks, 亚信, 京东, Intel等多个知名企业的员工分享了Spark实践中的经验与教训.

演讲主题: Spark应用案例分析

所属专题:
Hadoop，超越MapReduce

Apache Spark作为新一代大数据分析平台，以全能分析闻名，可以在单个软件栈内混合批处理、流式计算、以机器学习为代表的迭代型计算、关系查询、交互式查询、图计算等多种分析范式，是搭建一体化大数据流水线的极佳选择。在部署Spark集群、设计Spark应用时有哪些方面的问题需要考量？目前Spark适合应用在哪些场景? 哪些场景不适合Spark使用? 本演讲试图通过亚信科技在Spark平台上的应用案例与经验教训为上述问题提供参考。

tianyi

演讲主题: Spark应用案例分析