Qcon上海2014

海量在线交易背后的运维监控体系建设

所属专题: 

每天,在携程网上都有巨量的在线旅游交易发生,而其背后有一个相当复杂的软件体系和基础设施在支撑。伴随业务的飞速发展,生产环境的发布越来越频繁,基础架构的变更也越来越密集,网站稳定性面临从所未有的挑战。从去年开始,新的监控体系开始被打造,从人员组织,工具开发,流程定义上都不断改进和磨合。如今监控工具已经能做到先于人发现网站问题,为故障恢复争取了时间,成为提高网站可用性的利器。在此基础上,我们还开发了监控工具的移动端,使得网站支持人员能够方便快捷的查看系统报警和关键监控数据,进一步缩短网站故障时间。本次分享主要介绍携程网的监控体系打造的思路,提高监控有效性采取的一些方法和工具,并展望携程监控平台一体化,移动化的未来发展方向。

携程网站运营系统研发总监
微博: @陶乐诗

网名:陶乐诗。拥有15年的互联网开发和运维经验,曾就职于IBM,eBay,Wal-Mart等公司从事网站运维以及系统开发工作。目前任职于携程网站运营中心,作为系统研发部总监,负责网站监控告警及运维工具的开发。在分布式监控系统领域有丰富的实践经验,对于监控系统在大型网站运维体系中的有效应用有深刻的理解。