对话D2iQ(原Mesosphere)CTO:消除Day 2生产运营风险对企业的重要性

2019-08-14 17:45:05 作者:佚名 出处 : 互联网

作者:D2iQ 首席技术官Tobi Knaup

近日,全球领先的云原生软件供应商Mesosphere已正式更名为D2iQ。在本文中,D2iQ的首席技术官Tobi Knaup将为各位读者阐述新名字的意义,并与大家探讨在“Day 2”生产环境中保证云原生应用运行的重要性。

Tobi Knaup

Tobi Knaup是D2iQ的首席技术官兼联合创始人,D2iQ旨在帮助企业推进云原生的发展,提供广泛的云原生服务,包括容器编排、数据服务、机器学习以及数据科学等。Knaup曾是Airbnb的首批工程师和技术骨干,曾负责搭建Airbnb主要基础架构,使该公司能够为数百万的用户提供服务,并组建了一支世界级的工程师团队。Knaup是全球首个开源容器协调平台Marathon的主要创建者,同时也是KUDO(一个为搭建Kubernetes Operators提供服务的开源工具)的创办者之一。

您所在的企业是否在设法保持业务优势?是否在利用云原生应用提升业务速度?这可能是您目前或者即将面临的问题,将在应用程序开发中发挥主导作用。任何组织都不会容忍风险的存在。此文特别阐述了,应用程序在生产运营阶段(Day 2)大规模运行时的性能和稳定性风险。让我们来看看为什么在Day 2生产运营阶段会出现风险?又该如何解决?这对于企业有积极的意义,同时也能够反映出企业架构师的专业度。

云原生的机遇与挑战

现代企业的创新能力必须要跟上日益复杂的环境的需求,而这绝非易事。

从积极的方面看,在云与开源交汇的领域,蕴藏着许多丰富的新技术,这些新技术可以帮助业务在短期内迅速完成转型。当然,寻求数字化转型对于企业来说或许也是迫于无奈。自2000年以来,已有超过一半的财富500强企业消失,有的被合并、收购,或许就是因为没有抓住数字颠覆的机遇而导致关门大吉。

毫无疑问,数字化转型使得“以应用为中心”的方式成为主流。也就是说,云原生等新技术及其之间的交互关系,已经让IT的复杂程度达到了前所未有的水平。IT部门要担负的任务是利用实时分析和应用完成业务的转型,而且要在几分钟内就完成对应用的调整、更新和优化,如果把这个时间延长至几天或几个月,导致的后果也必定不为企业所接受。传统IT的功能和流程无法承受这种快速部署的模式,组织需要采用全新的方式来开发和运行应用。

如今的市场是否存在公平竞争的环境,我们暂且不谈。但如果已经上“云”的企业拥有强大的开发者团队,往往会觊觎传统企业的蛋糕。可以说,在数字时代,云原生应用的发展对于我们就像当年的“万能工匠”(tinker toys,美国国宝级拼装玩具)一样重要。

复杂性:云原生杀手

不论您企业的团队规模有多大或者业务处于DevOps成熟度曲线的哪个位置,复杂性是所有人都要面对的挑战,这可是云原生应用的头号杀手。当您既要保证自己不迷失在无边的开源宇宙中,同时又要保证所选择的技术适应现有IT架构的需求,这样的难题可能会导致在Day 0(概念验证)、Day 1 (部署首个应用)以及Day 2 (定义如下)都出现独特的挑战。

定义Day 2

Day 2是一个DevOps的概念,是指开发生命周期的一个阶段:在最初的部署之后,应用展现出真实需求的阶段。在Day 2阶段, 服务水平协议(SLAs)得到了批准和保证,组织对弹性、规模、敏捷性、安全性、管控和合规等应用执行严格的标准。也就是说在这个阶段,企业将感受到真正的业务影响力,一旦失败很有可能全盘皆输,几百个小时的辛苦工作、几千美元的成本也将付之东流。

Day 2不仅仅是利用几个微服务来部署一个应用,更需要利用必不可少的多种技术和服务水平协议,成功地实现多个云原生部署,以满足企业不同的业务需求。Day 2意味着所有的项目和应用都具备连续的、可持续的运营能力,并赋予企业统一的审计、安全以及合规的方式。

未雨绸缪:明智的企业通常在Day 0之前就制定好Day 2计划

实际上,当今的动态IT环境在创造惊人科技的同时,也迫使企业从云供应商、协调平台、安装工具等大量选项中进行筛选。使用公有云、私有云还是二者结合后的混合云?使用什么监控和日志?如何集成开发者流水线?这些都是企业需要考虑的问题。

应用的初步搭建可能就要花费数月的时间,而且还不包括在现实环境运行中涉及的日常需求工作。若应用初始部署完成,还是值得庆祝一番的,但若计划不周,又因规模导致了意料之外的问题,就会给Day 2生产运营的管控带来危害,例如应用崩溃和性能下降等。

不过,导致Day 2失败的原因不仅在于技术,如果企业无法高效地响应应用性能问题,往往是因为他们没有正确的监控、日志和警报,因此不能准确找到问题根源,导致无法进行补救。由于他们不知道如何排除故障或恢复Day 2阶段的正常运营,致使出现了最糟糕的情况。

如果您的企业想要在Day 2阶段获得成功,需要做到以下三步:

1. 在规划之初就要考虑到Day 2生产运营,事先了解运维团队对计划的看法,因为最终是他们要对架构和平台决策负责;

2. 企业若想最终取得成功,需要意识到——技术不是实现智能可靠部署的单一要素;

3. 尽早将技术与经验相结合,引导战略规划。具体表现为在编写程序和技术选型之前,预先确定在生产环境的决胜要素。

不论您的目标或计划是否有关于利用Kubernetes实现应用程序编排、通过Mesos和DC/OS实现大型应用程序规模化和可靠性,亦或是通过Kafka, Spark和Cassandra等数据服务搭建并维护大规模数据分析、数据科学和数据驱动的应用环境,只要您的目标满足以上三种之一,都会促使组织采用开源和云原生创新成果,同时让Day 2的生产运营更加智能。

对于企业来说,现在是准备开发云原生的黄金时间,具有远见卓识的技术领导者将带领他的团队抢占先机。若想快人一步,还需在Day 0的规划阶段就考虑如何消除Day 2生产运营的风险,让关键任务应用帮助业务圆满,获得战略价值。未来,现代化应用将以云原生的概念和利益为基础,若想取得成功,您所在的企业、您个人的职业规划以及您的客户一定要为此做好相应的准备。

关于D2iQ

D2iQ,前身为Mesosphere,是企业级云平台的领先供应商,助力企业开启开源和云原生创新,交付更智能化的Day 2生产运营。D2iQ在支持世界上最大的云部署方面拥有无与伦比的经验。

D2iQ通过企业级的技术、培训、专业服务和支持,为企业领航并加速实现云原生转型。无论您正在部署第一个Kubernetes工作负载,还是在使用Spark或Jupyter优化业务分析,或者希望培训云原生应用开发人员,D2iQ都可以通过专业知识、服务和技术,助力您在云原生之旅上加速前行。

D2iQ总部位于旧金山,在纽约、汉堡、德国和北京设有办事处。D2iQ投资者包括Andreessen Horowitz、HPE、Khosla Ventures、Koch Disruptive Technologies、微软和T. Rowe Price Associates公司。