业务|云计算十年:阿里云第三代神龙云服务器如何挑战摩尔定律极限


业务|云计算十年:阿里云第三代神龙云服务器如何挑战摩尔定律极限
图片
经济观察网采访人员 陈伊凡 7月15日 , 一袭粉色衬衫的张献涛站在屏幕前 , 通过钉钉直播2020阿里云弹性计算产品年度发布会 , 在会上宣布推出第三代神龙云服务器——目前整体算力最强的服务器 , 比目前全球最顶级云服务器的综合性能要快30%以上 。
张献涛是阿里云弹性计算产品线负责人 , 经历云计算从无到有、从弱到强 , 在云计算一线已经工作15年 。 过去十年 , 阿里云的存储性能提升了2000倍 , 网络性能提升了500倍 , 整体算力以平均每12个月翻一番的速度增长 , 向摩尔定律的极限发起挑战 。 “十年时间的发展 , 我们重构了整个计算的服务模式 。 ”张献涛说 。
在阿里内部 , 神龙架构已经大规模应用于淘宝、天猫、菜鸟等业务 , 解决高峰值的性能瓶颈问题 。 在发言和后续的采访中 , 张献涛解释了当初为何阿里决定自研神龙 , 十年间企业需求的变化以及未来迭代的方向 。
变化的客户需求
“十年前 , 我们可能更多是劝客户上云 , 但今天是和他们一起探讨如何选好云、用好云 , 解决性能、稳定性、弹性等这些方面的诉求 。 ”这是在一线的张献涛发现的变化 。
客户们的诉求 , 在过去10年间变得更加清晰 , 第一诉求是业务永续 , 第二是性能极致 , 第三就是对资源的极速、弹性诉求 , 第四个是自助服务 。
这样的需求变化其实不难理解 。 对于传统数据中心 , 经常会碰到各种由于硬件故障或IDC故障导致宕机的问题 , 这些企业上云后 , 期待云计算能够解决他们业务永续的问题 。
这也给云计算带来新挑战 。 “过去几年 , 我们不断做产品和技术方面的创新 , 我们有上百万台服务器 , 积累大量硬件故障相关的信息 , 通过人工智能及其学习的模式 , 对一个即将要发生故障的硬件进行提前预测 , 在发生故障之前 , 就把客户的业务通过热迁移模式 , 迁移到一台好的机器上 , 避免业务中断 。 ”
此外 , 企业上云的另一个关注点就是如何提高业务性能 。 阿里的做法是自研神龙计算平台、盘古存储平台和洛神网络平台 , 通过这种软硬件结合的方式提升计算的效率 。 去年 , 阿里云发布了自研的针对人工智能业务的含光芯片加速器 。
每个业务都可能有波峰波谷 , 当波峰到来时 , 对应的平台算力就要提升 , 否则业务就会受到影响 。 像有社会热点发生时 , 微博需要弹出几倍算力去应对热点事件 , 需要在几分钟内弹出几十万核甚至上百万核的算力 , 去应对突增的业务访问请求 。
张献涛解释 , 这在传统IT时代很难完成 , 因为IT资源的扩充需要以月为单位来满足 。 “云计算时代 , 使用弹性计算产品可以在几分钟内弹出50万核来应对这种突发业务 。 ”他们现在在底层平台也进行一些优化 , 和达摩院的算法科学家进行合作 , 对客户的业务负载做一些预测 。
除了以上三点变化 , 客户还体现出自助服务的诉求 。 “也许客户没有提出这个诉求 , 但我们在和他们沟通的过程中发现 , 他们其实遇到了这方面的问题 , 在迁云阶段 , 也为了解决迁移上云难的问题 , 开发了一键式的迁移上云服务中心 , 还有一些自动化诊断、自动化运维编排的能力 , 能够让企业们免去人力运维 。 ”
自研神龙
一直以来 , 性能损耗是虚拟化技术无法规避的难题 , 无论服务器多先进 , 只要是虚拟化 , 就一定会有部分性能要用在虚拟化调度上 , 这也是整个云计算行业尚未被解决的问题 。
很多企业使用虚拟机和虚拟化管理系统的宿主机是 “共处一室” , 这会导致资源的争抢 , 带来虚拟机计算能力的波动 。 云厂商没法把这台机器的全部算力给到客户 。 例如 , 一个32核的物理服务器 , 云厂商只能把16核或20核给到客户 , 剩下的12核需要对存储、网络进行虚拟化 。 分页标题
资源的浪费带来了成本的提升 。 正因为性能和成本的问题 , 很多企业上云之后又回到传统IT 。 为了解决这一问题 , 2016年阿里云低调启动了一项代号为“X-Dragon”的项目 。
为什么决定自己做 , 张献涛解释 , 2016年正遇到阿里巴巴这个经济体的业务往云上迁移 , 对产品提出更高要求 。 他们在评估业界同行的芯片之后 , 发现无法满足阿里的业务需求 , 因为其整体设计还是传统的X86架构 。
经历软件虚拟化、通用硬件虚拟化、专用硬件芯片虚拟化三个阶段后 , 2019年推出的第三代神龙架构实现了裸金属服务器、ECS虚拟机等计算平台的架构统一 , 用户可获得高质量的弹性资源 , 贯穿整个IaaS计算平台 , 并在IOPS、PPS等方面提升5倍性能 。
“芯片研发方面是最难的 , 神龙云服务器是一年一代的节奏 , 但整体研发难度很大 。 ”接受经济观察网采访人员采访时 , 张献涛说 , 首先要经得住稳定性的考验 , 毕竟其所服务的是大规模的客户业务 , 大规模做应用 , 十万台、几十万台服务器起步 , 这对于芯片的可靠性和稳定性的要求很高 , 所有芯片 , 尤其是数据方面 , 不能有瑕疵 。 因此 , 尽管去年9月份就已经在云栖大会上发布 , 今年5、6月份才推出产品 。
张献涛说在这个过程中 , 团队更多是在内部的业务场景进行压测 , 例如双十一 , 可以让他们有条件做各种各样的压力测试 。 “所以在整个第三代神龙架构研发的过程中 , 怎样能够在快速的互联网迭代方式下 , 我们要能够解决掉芯片也能够随着用户周期的迭代 , 并且能够确保他的稳定性能 , 在这些方面对我们提出了很大的挑战 。 虽然我们在这个领域可能走的相对来说比较靠前 , 但在这个领域 , 大家面对的挑战 , 我相信基本上是一致的 。 ”
2020年7月 , 阿里云推出第三代神龙云服务器 , 基于神龙架构再次将算力逼向极限 , 相比上一代整体性能提升160% , 提供最多核、最大2086TB内存 , 在多项性能参数中斩获世界第一 。
未来走向
曾经 , 一位在芯片领域从业多年的行业人士就做过这样的比喻:AI算法相当于菜谱、数据是原料、芯片这些就是烹饪的工具 。 这其中 , 数据是核心 。
“做AI芯片最后能够扛下来的 , 都是拥有数据的那些公司 。 ”拥有数据就意味着拥有场景 , 这对于很多芯片公司来说极其重要 , 他们需要这些场景为芯片性能做试验、提升 。
这个逻辑同样也可以用在云计算厂商和传统设备厂商之中 。 正如张献涛所说 , 因为传统设备厂商的需求很多都是来自于云计算厂商 。
事实证明 , 如今那些拥有海量数据(603138,股吧)的巨头们 , 都已经进入自研芯片市场 。 百度和三星合作 , 使用14nm工艺 , 基于自研的XPU神经处理器架构 , 推出昆仑AI芯片;阿里成立平头哥芯片公司 , 推出自研的玄铁910CPU、含光800AI推理芯片 。
“神龙架构发布后 , 带来的优势不仅其他云计算厂商看到了 , 传统的设备厂商、做网卡芯片、做存储芯片的厂商 , 现在都在朝着神龙的架构来做 , 下一代产品的规划 , 其实都是照着神龙的架构演进的 。 ”张献涛觉得很欣慰 , 因为在这样一个关键技术方面不再孤独 , 这个也说明代表了未来的趋势 。
张献涛在采访中表示 , 下一代神龙服务器会从存储的性能以及安全方面有所提升 , “不是说现在不安全 , 是大家对各种各样业务场景的适配 。 就像今天我讲的在可信计算领域、金融领域 , 还有一些合规性的要求 , 这些领域对特殊的加解密算法 , 各种和场景合在一起的需求 , 这些方面的增强 , 我觉得是未来我们第三代会重点去进攻的方向 。 ”
(责任编辑:李显杰 )