大数据&云计算|阿里云神龙Ⅲ:极限性能的探索之路


把时钟向回拨过半年 , 2019年的双11购物狂节 , 似乎和每年的双11没有什么不同 , 依然是刷新着日订单世界纪录 , 尽管54.4万笔/秒的订单量 , 已经是2009年第一次双11的1360倍 , 但这一切放在阿里巴巴身上 , 就感觉是那么的理所应当 。
其实 , 这个没有硝烟的战场背后 , 却有着不同寻常的故事 , 阿里巴巴早已悄悄将数以十万计的服务器迁移到了公有云上 , 做到了核心系统100%跑在阿里云公共云上 。 而核心电商业务应用大规模部署在自研的神龙裸金属服务器上 , 这亦是“神龙”首次经受真正意义上的大规模实战考验 。
我们都知道 , 神龙云服务器的诞生是为了获得超越物理机的性能 , 并兼有有虚拟机的体验 。 换言之 , 神龙解决虚拟化损耗的初衷 , 就是为了获得极致性能而来的 。
所以从2017年到2020年 , 三代神龙服务器的架构迭代 , 本质是就是对服务器性能极限的一次“冲刺” 。

大数据&云计算|阿里云神龙Ⅲ:极限性能的探索之路
本文插图
7月15日 , 阿里云宣布推出第三代神龙云服务器 , 与上一代相比 , 第三代神龙云服务器的综合性能提升高达160% , 比目前全球最顶级云服务器还要快30%以上 , 整体算力全球最强 。
弹性的代价 , 虚拟化之殇
从2006年 , 亚马逊正式发布AWS算起 , 公有云行业已经足足走过了14年 。 云计算从理念被接受 , 到公有云形成互联网的技术洪流 , 最近几年才到了企业客户上云的时代 。 我们知道 , 企业客户本身通常有传统IT的基础 , 它们对云的思考维度更多 , 思维也更缜密 。
早期的公有云 , 较为粗放的通过虚拟机来分配计算力 , 但虚拟机的计算能力、平稳性、弹性由下沉的虚拟化软件 , 而不是虚拟机来完成的 。 所以 , 必然会导致资源争抢、算力损失、性能瓶颈 , 同时也难以支持裸机服务 。
虚拟化固然是云计算的基础 。 软件定义的方式来管理数据中心的计算资源 , 让云计算厂商可以根据企业需求输出计算能力 , 但弹性能力的代价则是以牺牲性能损耗的形式来换取的 。
正是这些原因让当时的企业用户对公有云产生了一些排斥 , 部分企业在尝试了上云之后 , 又回归传统IT的怀抱 , 但这绝非公有云之过 , 而是虚拟化之殇 。

大数据&云计算|阿里云神龙Ⅲ:极限性能的探索之路
本文插图
阿里云弹性计算负责人张献涛说 , 企业用户需要更强的计算性能、需要更快的网络接入、更高的存储读写能力 , 存储的IOPS要高、网络的PPS要高、网络的带宽存储能力要高 。 解决所有这些问题的根源就在于变革虚拟化技术 。
在阿里云的成立之初 , 也是采用了开源虚拟化软件XEN , 做到了准虚拟化 , 后来在2014年升级到KVM架构 , 后者在在虚拟机和硬件之间加了一个软件层 , Hypervisor , 直接运行在物理硬件之上 , 大幅降低了虚拟化性能损耗 。
但这并不足够 , 一个大胆的想法 , 慢慢在阿里内部滋生 。
三代神龙 , 冲刺极限性能 2016年阿里云秘密启动了一项代号为“X-Dragon”的项目 , 次年即推出了首款自研神龙云服务器第一代 。
神龙诞生的本质就是软硬融合的虚拟化技术 。 而最早的神龙第一代服务器 , 还做不到追求真正的极致性能 。 它更多的是解决上云后如何支持裸机服务 , 但是又不能是传统的物理机 , 需要充分和云计算基础设施融合 。

大数据&云计算|阿里云神龙Ⅲ:极限性能的探索之路
本文插图
【大数据&云计算|阿里云神龙Ⅲ:极限性能的探索之路】
为了实现超越物理机的性能 , 有虚拟机的体验 , 阿里云设计了神龙MOC卡 , 通过神龙芯片做高速数据面的转发 , 并通过芯片加速引擎 , 存储EBS、网络 , 所有管控面的东西 , 都下沉到芯片中 , 让所有的接口都和虚拟机保持一致 。 最终实现了一张芯片其实解决所有问题 , 物理机可以使用云存储、VPC网络、挂载本地盘的问题 。分页标题

大数据&云计算|阿里云神龙Ⅲ:极限性能的探索之路
本文插图
神龙芯片
而第二代神龙可以叫做融合虚拟化的践行者 , 它的神龙芯片能力进一步增强 , 不但可以支持的裸金属系统 , 还可以支持虚拟机 。
有了前两代神龙的探索 , 第三代神龙服务器则真正成为了极致性能的追求者 。 全新发布的第三代神龙云服务器产品家族提供了最多208核、最大6TB内存 , 云盘IOPS高达 100万、网络转发高达2400万、网络带宽高达100G , 均为全球最高性能水平 , 支持CPU、GPU、NPU、FPGA等多种计算形态 , 具备3分钟交付50万核vCPU的极速扩容能力 , 堪称云原生的最佳载体 。

大数据&云计算|阿里云神龙Ⅲ:极限性能的探索之路
本文插图
追求性能的极致 , 将虚拟机的性能损耗降至接近于“零”是最快的捷径 。 目前 , 全球仅有两家有类似技术实现了虚拟化零损耗 , 另一家是亚马逊AWS 。
让云原生变成云“原生” 我们知道 , 在云计算时代诞生了云原生(Cloud Native)的概念 。 它不是一个产品 , 而是一套技术体系和一套方法论 , 指的是产品解决方案基于云计算 , 不需要再经历从传统的架构转移到云平台 , 让很多应用不做任何改动就可以在云平台运行起来 。 换言之 , 云原生就是距离云更近 , 效率也更高 。
张献涛说 , “以前虚拟化技术的设计思路 , 前提都是服务器和计算架构都已经定了 , 如何通过软件适配计算架构 。 我们做神龙则是反其道而行之 。 随着云计算向纵深方向发展 , 软硬一体化的架构设计将成为云技术架构的主流 。 3-5年内 , 容器在IT架构里面占比将达到一半以上 。 云原生需要我们将虚拟化推向极致 。 ”
的确 , 今天的云计算是构建在虚拟化基础之上的 , 云原生趋势需要将虚拟化推向极致 , 更极致的启动速度、并发能力、部署密度 , 同时又不失安全、成本更低 。 这是神龙服务器 , 让云原生真正变成云“原生”的真正能力 。

大数据&云计算|阿里云神龙Ⅲ:极限性能的探索之路
本文插图
一方面 , 神龙架构对云原生浪潮下容器等产品适配程度极高 。 通过I/O offload芯片加速 , 高效调度和自动化弹性伸缩的容器化产品可帮助用户降低50%的计算成本 , 综合性能比物理机还快30% , 对云原生浪潮下容器等产品适配程度极高 。
另一方面 , 与容器服务做到融合 。 例如2019 年阿里巴巴双11 系统以云原生的方式上云 , 基于神龙服务器、轻量级云原生容器以及兼容 Kubernetes 的调度的新的 ASI(alibaba serverless infra.)调度平台 。 其中KubernetesPod 容器运行时与神龙裸金属完美融合 , Pod 容器作为业务的交付切面 , 运行在神龙实例上 。
容器也是一种轻量级的虚拟化方案 , 神龙+容器+Kubernetes 的结合正是云原生时代的最佳拍档 , 也将是未来的主流技术形态 。
事实上 , 神龙服务器的成长与壮大 , 也是阿里云弹性计算整体发展的一个缩影 。 从技术角度 , 阿里云ECS的单实例稳定性从原来的99.95%提升到99.975% , 跨AZ多实例稳定性从原来的99.99%提升到99.995% , 均为全球最高水准 。
经过10年发展 , 阿里云弹性计算已经服务全球上百万的客户 , 在全球22个地域 , 构建了63个大型的数据中心 。 在国内超过80%的科技创新企业都运行在阿里云上 , 阿里云弹性计算服务为这些企业的产品业务创新提供着有力的支撑 。 同时 , 阿里云弹性计算已覆盖互联网、金融、零售等行业近300种场景 , 支撑了各种流量高峰:如12306的春运抢票、微博热点的暴涨流量、钉钉2小时扩容10万台云服务器等等 。
对极致性能的追逐 , 仍将是云计算发展进程中的不变的目标 , 神龙第三代服务器为代表的阿里弹性计算 , 以依然在路上 。分页标题