mowen
2006年硕士毕业于北航计算机系,应届加入阿里巴巴集团,先后在雅虎中国,阿里云,淘宝和一淘几家子公司从事搜索及大数据技术研发工作,目前在阿里搜索事业部带领离线技术团队,负责为阿里集团各搜索业务提供平台级数据技术支持。
本人自2009年开始关注Hadoop生态技术发展,并逐步将其引入阿里电商搜索技术体系,2010年首次将HBase在全网商品搜索落地,这也是HBase第一次在阿里集团正式上线的标志,经过多年的积累的发展,已经打造出基于HBase的离线存储平台。
2013年再次率先将阿里搜索的Hadoop集群全面升级到YARN时代,并基于YARN自主研发了iStream流式计算引擎,逐步形成了基于YARN的计算平台,为淘宝、天猫、B2B、一淘和云搜索提供了统一的数据处理基础设施。
- 专题日期:星期四专题
Hadoop从互联网诞生,但近些年在整个大数据领域呈现爆发式发展和进化,尤其是在2013年Hadoop-2.0正式Release后,Hadoop有了正式的Operation System—YARN,从此Hadoop不再只是MapReduce的代名词,Storm、Spark、Graph,MPI等越来越多的计算模型可以运行在YARN上,批处理计算、实时流式计算、迭代交互计算等都可以同时运行在Hadoop集群上,Hadoop已经成为大数据计算的全能平台。
HBase随着近几年的高速发展和应用,已经成为大数据技术领域最主流的NoSQL数据库;Tez和Spark的出现让Hive拥有了更高效的计算引擎可以选择;Impala和Stringer更是将大数据SQL带入到了Realtime时代;Ambari的诞生和快速发展也大幅降低了Hadoop集群的运维门槛。随着Hadoop开源社区不断涌现出各种令人兴奋的新技术,逐步完善的Hadoop生态系统已经成为大数据行业发展的核心动力。