Qcon上海2014

Hadoop,超越MapReduce

专题出品人: 
专题日期: 
星期四专题

Hadoop从互联网诞生,但近些年在整个大数据领域呈现爆发式发展和进化,尤其是在2013年Hadoop-2.0正式Release后,Hadoop有了正式的Operation System—YARN,从此Hadoop不再只是MapReduce的代名词,Storm、Spark、Graph,MPI等越来越多的计算模型可以运行在YARN上,批处理计算、实时流式计算、迭代交互计算等都可以同时运行在Hadoop集群上,Hadoop已经成为大数据计算的全能平台。

 HBase随着近几年的高速发展和应用,已经成为大数据技术领域最主流的NoSQL数据库;Tez和Spark的出现让Hive拥有了更高效的计算引擎可以选择;Impala和Stringer更是将大数据SQL带入到了Realtime时代;Ambari的诞生和快速发展也大幅降低了Hadoop集群的运维门槛。随着Hadoop开源社区不断涌现出各种令人兴奋的新技术,逐步完善的Hadoop生态系统已经成为大数据行业发展的核心动力。

Apache Spark作为新一代大数据分析平台,以全能分析闻名,可以在单个软件栈内混合批处理、流式计算、以机器学习为代表的迭代型计算、关系查询、交互式查询、图计算等多种分析范式,是搭建一体化大数据流水线的极佳选择。在部署Spark集群、设计Spark应用时有哪些方面的问题需要考量?目前Spark适合应用在哪些场景? 哪些场景不适合Spark使用? 本演讲试图通过亚信科技在Spark平台上的应用案例与经验教训为上述问题提供参考。

一、计算平台架构

平台架构

集群规模

集群特点

二、支撑的搜索业务

搜索业务

处理流程

三、YARN计算平台

iStream计算模型

Schedule改进

AppHistoryServer改进

HStats资源用量统计

四、未来发展

PayPal的飞速发展离不开PayPal风险控制团队的巨大贡献。PayPal风险控制团队主要致力于使用大数据技术判别在PayPal上的虚假交易。如何利用大数据精准的训练风险控制的数学模型一直是PayPal风险控制团队的研究重点。

Guagua是基于Hadoop的内存迭代式计算框架。在PayPal内部Guagua主要被用于训练基于海量数据的风险控制模型。在本次演讲中您不仅可以了解到Guagua如何通过改进Hadoop MapReduce用以支持大数据的数学模型的训练,您还可以了解到Guagua的整体设计架构(包括对Hadoop YARN的支持);在可扩展性方面,Guagua同时支持Hadoop MapReduce和Hadoop YARN,很容易扩展到其它计算平台。此外,Guagua的微核插件化设计体系可以使得用户灵活地更换、组合甚至是开发新的组件。本次演讲中您还会了解到Guagua不同于Spark的一些高级的特性,如:完整的容错机制、慢任务检测机制、可定制的Worker超时机制、友好的进度和状态提示等等。

Storm是一个分布式实时流式计算系统,与Hadoop相比在实时、流式数据的处理方面具有天然的优势,在很多互联网公司有成功的应用。本演讲将介绍在360基于Storm构建大规模分布式实时计算平台,如何利用已有的空闲资源来满足业务的需求,在构建这个平台的过程中遇到了哪些问题以及如何解决的,特别是对于实时计算系统Storm,遇到过很多问题,做了很多改进和解决方案,包括平台稳定性、易用性、高可用等方面。

MapReduce已经开始显现老化的迹象,局限性越来越明显。Tez作为下一代hadoop的执行引擎与传统的MapReduce相比做了很大的改进和优化,将计算模型直接建立在DAG上面,比传统的MapReduce更加直接,灵活,在性能上有很大的提升。同时由于Tez从项目开始就集成了Yarn,从而对于整个计算资源的Context了解的更加清楚,这也有助于性能的优化。本次演讲将主要对Tez做一个Overview的介绍。

Apache Spark作为新一代大数据分析平台,以全能分析闻名,可以在单个软件栈内混合批处理、流式计算、以机器学习为代表的迭代型计算、关系查询、交互式查询、图计算等多种分析范式,是搭建一体化大数据流水线的极佳选择。在部署Spark集群、设计Spark应用时有哪些方面的问题需要考量?从零起步的创业公司和身怀一系列遗留系统的大公司面临的挑战有何不同?Spark一体化大数据流水线的愿景是否带来了真实的收益?Spark各个组件在不同公司的应用情况如何?本演讲试图通过国内外多家不同类型公司的真实Spark应用案例为上述问题提供参考。

介绍由于广告数据的多样化,包括有曝光、点击等被动获取的请求;微博、新闻、博客、论坛、行业网站等主动抓取的请求;问卷调查数据的补充;第三方数据的输入。导致对数据的清洗(ETL)、存储(Data Storage)、挖掘(Data Mining)都提出非常高的要求。将会介绍每天近100亿请求的性能是如何优化的,以及每天近1000亿数据的数据分析是如何实现的,还有数据从多IDC采集到同步中心机房如何实现分钟级的计算。最后将会重点介绍AdMaster 根据累积了超过7年的实际广告主和品牌的网络营销数千个实际案例的经验,自身研发的ADH(Advertising Distribution Hadoop)的发展及特点。其中包括内置的广告算法,应用调度器的优化,还有关于在线数据(HBase),离线数据(MapReduce),实时数据(Spark),流式数据(Storm)等方式的整合介绍。