业务|云计算十年：阿里云第三代神龙云服务器如何挑战摩尔定律极限经济观察网记者|

图片
经济观察网采访人员陈伊凡 7月15日，一袭粉色衬衫的张献涛站在屏幕前，通过钉钉直播2020阿里云弹性计算产品年度发布会，在会上宣布推出第三代神龙云服务器——目前整体算力最强的服务器，比目前全球最顶级云服务器的综合性能要快30%以上。
张献涛是阿里云弹性计算产品线负责人，经历云计算从无到有、从弱到强，在云计算一线已经工作15年。过去十年，阿里云的存储性能提升了2000倍，网络性能提升了500倍，整体算力以平均每12个月翻一番的速度增长，向摩尔定律的极限发起挑战。 “十年时间的发展，我们重构了整个计算的服务模式。 ”张献涛说。
在阿里内部，神龙架构已经大规模应用于淘宝、天猫、菜鸟等业务，解决高峰值的性能瓶颈问题。在发言和后续的采访中，张献涛解释了当初为何阿里决定自研神龙，十年间企业需求的变化以及未来迭代的方向。
变化的客户需求
“十年前，我们可能更多是劝客户上云，但今天是和他们一起探讨如何选好云、用好云，解决性能、稳定性、弹性等这些方面的诉求。 ”这是在一线的张献涛发现的变化。
客户们的诉求，在过去10年间变得更加清晰，第一诉求是业务永续，第二是性能极致，第三就是对资源的极速、弹性诉求，第四个是自助服务。
这样的需求变化其实不难理解。对于传统数据中心，经常会碰到各种由于硬件故障或IDC故障导致宕机的问题，这些企业上云后，期待云计算能够解决他们业务永续的问题。
这也给云计算带来新挑战。 “过去几年，我们不断做产品和技术方面的创新，我们有上百万台服务器，积累大量硬件故障相关的信息，通过人工智能及其学习的模式，对一个即将要发生故障的硬件进行提前预测，在发生故障之前，就把客户的业务通过热迁移模式，迁移到一台好的机器上，避免业务中断。 ”
此外，企业上云的另一个关注点就是如何提高业务性能。阿里的做法是自研神龙计算平台、盘古存储平台和洛神网络平台，通过这种软硬件结合的方式提升计算的效率。去年，阿里云发布了自研的针对人工智能业务的含光芯片加速器。
每个业务都可能有波峰波谷，当波峰到来时，对应的平台算力就要提升，否则业务就会受到影响。像有社会热点发生时，微博需要弹出几倍算力去应对热点事件，需要在几分钟内弹出几十万核甚至上百万核的算力，去应对突增的业务访问请求。
张献涛解释，这在传统IT时代很难完成，因为IT资源的扩充需要以月为单位来满足。 “云计算时代，使用弹性计算产品可以在几分钟内弹出50万核来应对这种突发业务。 ”他们现在在底层平台也进行一些优化，和达摩院的算法科学家进行合作，对客户的业务负载做一些预测。
除了以上三点变化，客户还体现出自助服务的诉求。 “也许客户没有提出这个诉求，但我们在和他们沟通的过程中发现，他们其实遇到了这方面的问题，在迁云阶段，也为了解决迁移上云难的问题，开发了一键式的迁移上云服务中心，还有一些自动化诊断、自动化运维编排的能力，能够让企业们免去人力运维。 ”
自研神龙
一直以来，性能损耗是虚拟化技术无法规避的难题，无论服务器多先进，只要是虚拟化，就一定会有部分性能要用在虚拟化调度上，这也是整个云计算行业尚未被解决的问题。
很多企业使用虚拟机和虚拟化管理系统的宿主机是 “共处一室” ，这会导致资源的争抢，带来虚拟机计算能力的波动。云厂商没法把这台机器的全部算力给到客户。例如，一个32核的物理服务器，云厂商只能把16核或20核给到客户，剩下的12核需要对存储、网络进行虚拟化。分页标题
资源的浪费带来了成本的提升。正因为性能和成本的问题，很多企业上云之后又回到传统IT 。为了解决这一问题， 2016年阿里云低调启动了一项代号为“X-Dragon”的项目。
为什么决定自己做，张献涛解释， 2016年正遇到阿里巴巴这个经济体的业务往云上迁移，对产品提出更高要求。他们在评估业界同行的芯片之后，发现无法满足阿里的业务需求，因为其整体设计还是传统的X86架构。
经历软件虚拟化、通用硬件虚拟化、专用硬件芯片虚拟化三个阶段后， 2019年推出的第三代神龙架构实现了裸金属服务器、ECS虚拟机等计算平台的架构统一，用户可获得高质量的弹性资源，贯穿整个IaaS计算平台，并在IOPS、PPS等方面提升5倍性能。
“芯片研发方面是最难的，神龙云服务器是一年一代的节奏，但整体研发难度很大。 ”接受经济观察网采访人员采访时，张献涛说，首先要经得住稳定性的考验，毕竟其所服务的是大规模的客户业务，大规模做应用，十万台、几十万台服务器起步，这对于芯片的可靠性和稳定性的要求很高，所有芯片，尤其是数据方面，不能有瑕疵。因此，尽管去年9月份就已经在云栖大会上发布，今年5、6月份才推出产品。
张献涛说在这个过程中，团队更多是在内部的业务场景进行压测，例如双十一，可以让他们有条件做各种各样的压力测试。 “所以在整个第三代神龙架构研发的过程中，怎样能够在快速的互联网迭代方式下，我们要能够解决掉芯片也能够随着用户周期的迭代，并且能够确保他的稳定性能，在这些方面对我们提出了很大的挑战。虽然我们在这个领域可能走的相对来说比较靠前，但在这个领域，大家面对的挑战，我相信基本上是一致的。 ”
2020年7月，阿里云推出第三代神龙云服务器，基于神龙架构再次将算力逼向极限，相比上一代整体性能提升160% ，提供最多核、最大2086TB内存，在多项性能参数中斩获世界第一。
未来走向
曾经，一位在芯片领域从业多年的行业人士就做过这样的比喻：AI算法相当于菜谱、数据是原料、芯片这些就是烹饪的工具。这其中，数据是核心。
“做AI芯片最后能够扛下来的，都是拥有数据的那些公司。 ”拥有数据就意味着拥有场景，这对于很多芯片公司来说极其重要，他们需要这些场景为芯片性能做试验、提升。
这个逻辑同样也可以用在云计算厂商和传统设备厂商之中。正如张献涛所说，因为传统设备厂商的需求很多都是来自于云计算厂商。
事实证明，如今那些拥有海量数据(603138,股吧)的巨头们，都已经进入自研芯片市场。百度和三星合作，使用14nm工艺，基于自研的XPU神经处理器架构，推出昆仑AI芯片；阿里成立平头哥芯片公司，推出自研的玄铁910CPU、含光800AI推理芯片。
“神龙架构发布后，带来的优势不仅其他云计算厂商看到了，传统的设备厂商、做网卡芯片、做存储芯片的厂商，现在都在朝着神龙的架构来做，下一代产品的规划，其实都是照着神龙的架构演进的。 ”张献涛觉得很欣慰，因为在这样一个关键技术方面不再孤独，这个也说明代表了未来的趋势。
张献涛在采访中表示，下一代神龙服务器会从存储的性能以及安全方面有所提升， “不是说现在不安全，是大家对各种各样业务场景的适配。就像今天我讲的在可信计算领域、金融领域，还有一些合规性的要求，这些领域对特殊的加解密算法，各种和场景合在一起的需求，这些方面的增强，我觉得是未来我们第三代会重点去进攻的方向。 ”
（责任编辑：李显杰）