eBay用户行为数据流实时处理系统
eBay作为全球性的商务平台和支付行业领先者,拥有海量的用户行为数据。基于现有的hadoop大数据处理,已经不能够满足业务上对实时性的需求。基于eBay过去的大数据处理的经验和对最新技术的运用,eBay探索出一个对海量的用户行为数据流进行实时的收集,处理,分发和分析的平台。作为eBay下一代的实时用户行为数据处理的平台,该平台于2013年11月正式在ebay上线,日均处理10Billon级的用户行为数据,支撑eBay内部基于用户行为的实时系统,大大缩短了业务决策的时间。通过对用户行为数据的实时分析,可以实时了解站点上面的状况,实时调整用户的体验。该平台包含两部分,底层基于开源技术搭建了一个通用的分布式的Complex Event streaming processing框架,这是一种新型的Event Stream处理的框架,不同于现有的Storm, samza和Spark Streaming,基于这个框架,在上层实现了对用户行为数据的收集,处理,分发和分析。这次分享一个系统的整体架构以及具体的实现的技术和运营方面的一些技术和经验。这个框架是一个全新的大数据处理的模式,它跳出了MapReduce,实现了一个没有终点的数据流, 数据在不同的应用之间自由流动,每个应用根据需要可以改变,插入,变异数据流,构建了一个开放的数据流社交网络。
汪兴朗毕业于上海交通大学计算机系,于2013年4月加入eBay, 目前是ebay Global platform service的资深架构师,eBay CCOE technical board成员。加入ebay之前,在HP专注于电信行业的实时系统平台, 曾担任HP电信领域的实时平台的首席架构师。具有丰富的分布式实时系统的经验,在eBay成功的将实时系统和用户行为数据结合起来,搭建了一个实时的用户行为数据的处理的平台,大大缩短了业务部门的决策时间,推动了eBay用户行为数据分析从hadoop批处理转向实时处理。