每天,在携程网上都有巨量的在线旅游交易发生,而其背后有一个相当复杂的软件体系和基础设施在支撑。伴随业务的飞速发展,生产环境的发布越来越频繁,基础架构的变更也越来越密集,网站稳定性面临从所未有的挑战。从去年开始,新的监控体系开始被打造,从人员组织,工具开发,流程定义上都不断改进和磨合。如今监控工具已经能做到先于人发现网站问题,为故障恢复争取了时间,成为提高网站可用性的利器。在此基础上,我们还开发了监控工具的移动端,使得网站支持人员能够方便快捷的查看系统报警和关键监控数据,进一步缩短网站故障时间。本次分享主要介绍携程网的监控体系打造的思路,提高监控有效性采取的一些方法和工具,并展望携程监控平台一体化,移动化的未来发展方向。