Qcon上海2014

大数据架构和行业应用

专题出品人: 
专题日期: 
星期五专题
地点: 
宴会厅

从IT到财经,从医疗到政务,各种会议、论坛、杂志,各路高手、大神、大仙都在说“大数据”。有人说,中国正在“被大数据”。大数据必然“小”不了,但大数据只要“大”就够了吗?

各行各业的大数据架构和应用才是驱动“大数据”概念不断前行,步步落实的动力源泉。 电子商务、社交网络和移动互联网等行业已经离不开“大数据”,但除了这些炙手可热的领域之外,在地质勘探、高端制造业、医疗健康等关乎国计民生的行业,“大数据”的触角也已经无处不在。波澜壮阔的数据驱动世界迎面而来。

本专题将邀请电子商务、移动互联网、医疗健康、金融、地质勘探、高端制造业等行业的专家介绍“大数据”在各个行业的应用现状和前(钱)景,尽可能给与会者展示出“大数据”应用的全景图。

以基因组数据为代表的生物数据,在改善健康和疾病诊疗方面扮演非常重要的作用。在获取技术显著提高和成本显著降低的背景下,生物数据迅猛的增速给存储计算系统带来了严峻的挑战。本次分享将围绕生命健康数据分析的实际特点,介绍生物数据领域的行业和技术发展现状。同时结合实际应用需求,详细说明Genedock如何采用主流的虚拟化和分布式技术构建适应于生物大数据场景的计算环境。最后,讨论生命健康数据应用和发展趋势。

eBay作为全球性的商务平台和支付行业领先者,拥有海量的用户行为数据。基于现有的hadoop大数据处理,已经不能够满足业务上对实时性的需求。基于eBay过去的大数据处理的经验和对最新技术的运用,eBay探索出一个对海量的用户行为数据流进行实时的收集,处理,分发和分析的平台。作为eBay下一代的实时用户行为数据处理的平台,该平台于2013年11月正式在ebay上线,日均处理10Billon级的用户行为数据,支撑eBay内部基于用户行为的实时系统,大大缩短了业务决策的时间。通过对用户行为数据的实时分析,可以实时了解站点上面的状况,实时调整用户的体验。该平台包含两部分,底层基于开源技术搭建了一个通用的分布式的Complex Event streaming processing框架,这是一种新型的Event Stream处理的框架,不同于现有的Storm, samza和Spark Streaming,基于这个框架,在上层实现了对用户行为数据的收集,处理,分发和分析。这次分享一个系统的整体架构以及具体的实现的技术和运营方面的一些技术和经验。这个框架是一个全新的大数据处理的模式,它跳出了MapReduce,实现了一个没有终点的数据流, 数据在不同的应用之间自由流动,每个应用根据需要可以改变,插入,变异数据流,构建了一个开放的数据流社交网络。

介绍京东个性化搜索引擎应用场景,和如何利用大数据技术实现个性化搜索。京东个性化场景包括基于行为、偏好、地域、时间、好友关系等维度,其中偏好是个性化搜索重点考虑的内容,分享会介绍搜索如何应用长期偏好、实时偏好以及偏好在不同的平台(web、移动、微信/手Q)起到的作用。在实现个性化搜索当中会分享京东搜索在解决个性化过程中遇到的问题、使用的技术、以及经验和思考。

大数据目前在社会各界都是一个热门概念。百度大数据实验室以深厚的大规模机器学习技术积累为基础,百度在自有数据以及各类行业数据上进行了智能分析实践,包括广告、推荐、预测等。预测,是大数据的一大应用方向.这次分享会系统的介绍在大数据条件下的预测的概念与方法.同时结合在百度预测项目中的实践,通过一些具体的案例分析,为大家介绍基于百度大数据的预测中的一些技术与经验。同时也会延伸思路,介绍一些正在探索中的,预测以外的基于大数据的智能分析技术。

今天的雅虎在全球拥有8亿活跃用户,其中4.3亿人(超过一半)来自于移动设备。雅虎向用户提供及时、有相关性、安全和愉悦的日常习惯:其中包括传送新闻、最新的财经信息、有效的搜索、及时的体育新闻和比分更新、私人邮箱,视频和照片共享等。下一个颠覆性的科技将会来自于移动应用及可穿戴设备,可以给用户提供7*24无间断的应用及服务,它将具有更强的互动性和提供更好的用户体验增加我们的工作效率、提升我们的日常生活和改善我们的健康。

今天的雅虎拥有世界上最大的私有云之一。例如:它现今部署35,000多台Hadoop服务器,每天要处理400 PB数据,花费上千万小时的计算。雅虎拥有众多的云资产(从消息推送[Notifications] ,到移动服务[Mobile Services] ,到移动应用分析[Flurry],到Hadoop,到个性化推荐[Personalization],最后到移动广告[Mobile Advertising]),我们今天要讨论的是如何将它们一一整合创造出新的价值链来领导下一个大数据的浪潮。

互联网的许多典型应用都是以大数据为基础的,例如搜索、广告、预测及推荐。然而,根据产品的功能特点和性能要求,数据的结构属性和数量级别,以及算法的逻辑结构和复杂程度,在不同场景下,所需要采用的系统架构会有显著差异。此次分享会从实践经验出发,介绍及解析在这些互联网常用场景下所采用的大数据系统架构;在它们之间进行横向对比以加深理解不同系统架构设计的原因;点评一些开源的大数据系统在不同应用场景下的优劣表现;并从目前大数据行业所面临的一些挑战出发,展望大数据应用及架构未来的发展方向。