阿里达摩院研发存算一体AI芯片，性能提升超10倍，能效比提升300倍

文章插图
芯东西（公众号：aichip001）
作者 | ZeR0
编辑 | 漠影
芯东西12月3日消息，阿里云今日宣布，阿里达摩院已成功研发新型架构芯片，称其是全球首款基于DRAM的3D键合堆叠存算一体AI芯片。
从性能来看，该芯片可满足AI等场景对高带宽、高容量内存和极致算力的需求。在特定AI场景中，其性能提升超10倍，能效比提升达300倍。
该技术的研究成果已被国际芯片顶会ISSCC 2022收录，未来可应用于VR/AR、无人驾驶、天文数据计算、遥感影像数据分析等场景，发挥高带宽、低功耗的优势。
目前达摩院已在存算一体架构方向积累大量领先成果，曾在ISCA、MICRO、HPCA等计算机体系结构顶会上发表多篇论文。
一、达摩院计算技术实验室创新成果：要打破内存墙难题此次存算一体芯片是达摩院计算技术实验室在计算机体系结构上的创新成果之一。
【 阿里达摩院研发存算一体AI芯片，性能提升超10倍，能效比提升300倍】达摩院计算技术实验室是达摩院设立的16个实验室之一，致力于计算、存储、互联芯片的前沿技术研究。研究方向涵盖系统架构、计算机体系结构、芯片设计优化等领域。
该团队的研究成果也将用于阿里巴巴旗下半导体公司平头哥的芯片产品研发。
选择研发存算一体芯片，是为了打破传统计算机芯片普遍存在的内存墙等难题。
过去70年，计算机一直遵循冯·诺依曼架构设计，计算与内存分离，运行时数据需要在处理器和内存之间传输，这一过程会造成大量时延及功耗。
但面对AI等高并发计算场景，数据在存储与计算单元之间的传输过程限制了系统算力的提升。

文章插图
一方面，传统架构下数据搬运带来大量能耗，数据从内存单元到计算单元所需功耗，是计算本身的约200倍；另一方面，内存性能提升速度远落后于处理器的性能提升速度，处理器的算力以每两年3.1倍的速度增长，而内存的性能每两年只有1.4倍的提升。
有限的内存带宽无法保证数据高速传输。因此，模仿人脑特性、将数据存储单元和计算单元融合的存算一体技术开始兴起。
存算一体技术通过大幅减少数据搬运，可极大地提高计算并行度和能效，故而成为解决计算机性能瓶颈的一类关键技术。
这一技术早在上世纪90年代就被提出，但因技术复杂度、设计成本高、应用场景匮乏等限制，过去几十年存算一体芯片相关研究进展缓慢。
近年随着存储器件等底层技术的发展，加上以AI为代表的新兴技术快速扩容计算市场，业界迫切需要解决算力瓶颈，越来越多的高校及研究机构开始推动存算一体技术的研究与创新。
二、主攻近存计算，率先采用混合键合3D堆叠技术目前实现存算一体有三种主流技术路线：
（1）近存计算：计算操作由位于存储芯片外部的独立计算芯片完成。
（2）存内计算：计算操作由位于存储芯片内部的独立计算单元完成，存储单元、计算单元相互独立存在。
（3）内存执行计算：存储芯片内部的存储单元完成计算操作，存储单元和计算单元完全融合，没有一个独立的计算单元。
此次达摩院研发的芯片是沿着近存计算方向，集成了多个创新型技术，是全球首款使用混合键合3D堆叠技术实现存算一体的芯片。
HBM是将内存和计算结合的主要方案之一，但该技术存在单位容量带宽不足、功耗高等限制，难以有效解决内存墙问题。
而混合键合（Hybrid Bonding）的3D堆叠技术拥有高带宽、低成本的特点，被认为是低功耗、近存计算的完美载体之一。因此达摩院的芯片采用混合键合的3D堆叠技术，将计算芯片和存储芯片face-to-face地用特定金属材质和工艺进行互联。

文章插图
设计方面，该芯片内存单元采用异质集成嵌入式DRAM（SeDRAM），拥有超大内存容量和超大带宽优势。
计算芯片方面，达摩院研发设计了流式的定制化加速器架构，对推荐系统进行“端到端”加速，包括匹配、粗排序、神经网络计算、细排序等任务。
得益于整体架构的创新，该芯片同时实现了高性能和低系统功耗，有效解决了带宽受限的问题，在大幅提升带宽的同时，实现了超低功耗。
在实际推荐系统应用中，相比传统CPU计算系统，存算一体芯片的性能提升10倍以上，能效提升超过300倍。