Qcon上海2014

扬帆起航--大数据应用的自动化运维之路

讲师: 
所属专题: 

大规模分布式系统是处理大数据的平台基石。然而,当运维数千台甚至上万规模机器的时候,会遇到诸多挑战,如硬件配置的差异化,用户数和任务数的急剧膨胀,大压力下的边界效应,小概率事件被触发等。在这个前提下,还要做好自动化运维、监控报警等。阿里集团近几年的大规模集群机器数目快速发展,在规模和经验方面都在快速变化,在本次演讲将和大家分享这些实战经验。

阿里云计算运维高级技术专家
微博: @大舞-ukl

花名大舞,阿里集团技术保障部-云计算运维-高级技术专家,2007年加入阿里巴巴集团,负责阿里Hadoop/Odps(5k飞天)、OTS、HBase等大规模数据应用运维团队的工作。我一直专注于大规模海量数据分布式计算运维工作,有幸见证了集团数据底层平台从开源到自主研发的变迁、大规模数据计算应用的发展和爆发,带领大数据运维团队从零到自动化、从自动化到白屏化、精细化的演进,在保障平台稳定迁移、生产,提高运维效率方面有独到的心得体会。