Qcon上海2014

自动化运维

专题出品人: 
专题日期: 
星期五专题
地点: 
光大9号厅
网站流量越涨越高,系统规模越来越大,同时业务对产品交付速度要求越来越快,网站稳定性要求越来越高,运营成本需要大幅降低。这些矛盾越来越突出,给开发和运维人员以巨大的挑战,为了应对这种挑战,聪明的工程师们提出了DevOps的概念,发明了Docker这种充满想象力的工具,很多优秀的团队也在不同的路上对系统运维这个工作进行着自己的改造或变革,系统维护将不仅仅是运维工程师的工作,也是开发工程师的必备技能。特邀嘉宾将在现场给你讲述他们的故事,分享他们成功的经验
 
本主题的几个方向:
1. 小型创业团队如何用好各种云资源来快速支持业务的发展。
2. 优秀工具的介绍。
3. 成熟团队的最佳实践。

每天,在携程网上都有巨量的在线旅游交易发生,而其背后有一个相当复杂的软件体系和基础设施在支撑。伴随业务的飞速发展,生产环境的发布越来越频繁,基础架构的变更也越来越密集,网站稳定性面临从所未有的挑战。从去年开始,新的监控体系开始被打造,从人员组织,工具开发,流程定义上都不断改进和磨合。如今监控工具已经能做到先于人发现网站问题,为故障恢复争取了时间,成为提高网站可用性的利器。在此基础上,我们还开发了监控工具的移动端,使得网站支持人员能够方便快捷的查看系统报警和关键监控数据,进一步缩短网站故障时间。本次分享主要介绍携程网的监控体系打造的思路,提高监控有效性采取的一些方法和工具,并展望携程监控平台一体化,移动化的未来发展方向。

大规模分布式系统是处理大数据的平台基石。然而,当运维数千台甚至上万规模机器的时候,会遇到诸多挑战,如硬件配置的差异化,用户数和任务数的急剧膨胀,大压力下的边界效应,小概率事件被触发等。在这个前提下,还要做好自动化运维、监控报警等。阿里集团近几年的大规模集群机器数目快速发展,在规模和经验方面都在快速变化,在本次演讲将和大家分享这些实战经验。

在本次演讲中,我们会先演示一下Docker以及Dockerfile,同时看一下DevOps是什么,以及企业在走向“面向运维而设计”的过程中,Docker可以扮演的角色。之后我们会看一下与Docker有关的安全挑战,看看Cgroups、Namespaces、Capabilities和MAC(Mandatory Access Control)等控制机制,并将这些机制与我们之前在VM中用过的机制作个对比。最后,我们将探讨管理容器中的内容时所要面对的问题,并了解应该如何应对。

不管是传统的企业还是互联网公司,IT基础设施正越来越复杂,服务器也越买越多,部署的业务系统越来越多,大量的运维数据每时每刻都在产生,从服务器硬件到业务系统,从错误日志到监控预警,大数据啊,恩,不仅得hold住还得处理和分析啊,另外还得实时性,还在使用Hadoop,NO、NO、NO,太慢了,还得手写Map-Reduce,额的神,BI建模?ETL?伤不起啊。Medcl将为大家介绍一款开源神器:ELK-Stack,ELK-Stack是目前国外非常流行的一整套包括数据收集、存储、分析和展现的开源系统,借助它轻松构建企业内部的实时运维数据分析系统。‍

点评一直以来,大部分的业务都部署在基于 KVM 的虚拟机上,由运维管理,分配。而这样一种模式有很多弊端:

  • 运维成本高,机器的初始化,分配,回收占用了运维同学不少的工作时间
  • 无法弹性伸缩,扩容需要运维介入,缺少自动化
  • 资源利用率低,大部分机器按照标准策略分配,实际使用率仅10%

因此我们选择引入轻量级的 Container 技术 docker 打造自己的 PaaS 平台来解决以上问题。

主要亮点:

  • 从用虚拟机迁移到Docker
  • 点评对Docker的一些非标准使用方式以及碰到的问题
  • 对Docker做了哪些修改
  • 点评迁移过程的数据和Benchmark

解放运维双手,提高运维效率,是海量运维团队都热切期盼的目标。工欲善其事必先利其器,腾讯织云提供的标准化运营体系,结合虚拟化和自动流程管理,将自动调度的变更能力普及到腾讯各大线上产品。

本次分享的题目是《腾讯SNG织云自动化运维体系》,主要围绕着织云平台的架构、自动调度的实现原理与DevOps模式的运作方式来展开。分享将从海量运维的减法引出运营平台的设计思路,在成本与性能博弈中抉择虚拟化方案的选型,从D/O分离的体力活转变为DevOps的协作模式。以织云平台的孕育-诞生-成长为主线,阐述腾讯运维团队深耕细作的迈入自动化运维时代的故事。