Guagua:PayPal的Hadoop迭代式计算框架
PayPal的飞速发展离不开PayPal风险控制团队的巨大贡献。PayPal风险控制团队主要致力于使用大数据技术判别在PayPal上的虚假交易。如何利用大数据精准的训练风险控制的数学模型一直是PayPal风险控制团队的研究重点。
Guagua是基于Hadoop的内存迭代式计算框架。在PayPal内部Guagua主要被用于训练基于海量数据的风险控制模型。在本次演讲中您不仅可以了解到Guagua如何通过改进Hadoop MapReduce用以支持大数据的数学模型的训练,您还可以了解到Guagua的整体设计架构(包括对Hadoop YARN的支持);在可扩展性方面,Guagua同时支持Hadoop MapReduce和Hadoop YARN,很容易扩展到其它计算平台。此外,Guagua的微核插件化设计体系可以使得用户灵活地更换、组合甚至是开发新的组件。本次演讲中您还会了解到Guagua不同于Spark的一些高级的特性,如:完整的容错机制、慢任务检测机制、可定制的Worker超时机制、友好的进度和状态提示等等。
2008年硕士毕业于上海交通大学,从2010年起开始关注Hadoop的发展,2012年初加入PayPal Risk Data Science。刚加入PayPal主要使用Hadoop计算各种风险控制模型的变量;2013年初开始研发基于Hadoop的机器学习框架,以满足PayPal日益增长的风控大数据的需要。在这个机器学习框架中,本人主要负责如何使用Hadoop实现分布式的神经网络、逻辑回归等算法。经过不懈的努力,不仅完整实现了这个机器学习的框架,而且实现了一套基于Hadoop(包括MapReduce和YARN)的内存迭代式计算框架用以支持分布式的神经网络和逻辑回归等算法。今年四月份这两个项目分别以Shifu和Guagua命名对外开源(http://github.com/ShifuML/)。目前本人除了负责Guagua的维护外,还负责Guagua在Hadoop YARN的支持上的改进以及Guagua对大模型、分布式模型的支持。