- 发布者:octc
- 来源:octc
- 发布时间:2023-05-29
在日前举办的开放计算标准工作委会OCTC成立大会上,基于标准PCIe接口的人工智能加速卡液冷设计正式立项。该项目研究范围包括冷板式散热人工智能加速卡在结构、冷板、接头方面的设计要求,适用于冷板式散热人工智能加速卡、人工智能服务器的设计、制造和测评,并形成技术白皮书及技术规范。
当前标准PCIe接口形态的人工智能加速卡单卡功耗目前已达350W,预估新一代产品将达到450W及以上。单卡功耗的提升,带来服务器散热子系统功耗的显著提升。节能减排、降低PUE、建立绿色数据中心也是发展趋势所在。液冷成为解决AI服务器系统高功耗散热问题和降低数据中心PUE的关键措施,其中冷板式液冷技术日渐成熟,成为解决人工智能加速卡高功耗问题的主流方案。
当前冷板式人工智能加速卡在硬件接口、结构形态、快拆头等方面无统一要求,适配不同厂商液冷卡,服务器内部需要进行不同的结构设计,加速卡和整机适配需要耗费大量人力、物力。不同的冷板设计会对加速卡和系统的适配开发造成非常大的影响,以快拆头位置为例,一种实施方案是液冷接头位于加速卡内侧,服务器内部需要有配套液冷转接组件。另一种实施方案,液冷接头位于加速卡挡片侧,液冷接头露在服务器外侧(后窗或者前窗)。服务器系统针对不同的冷板式散热人工智能加速卡进行单独的硬件、结构适配,造成资源重复投入。定制化的冷板式人工智能服务器还造成产品功能和验证标准不统一,交付验证周期长等问题限制了行业有序的发展。针对这一状态,制定具有行业共识、统一的冷板式散热人工智能加速卡结构设计标准成为目前行业发展急需解决的问题。
基于以上原因,有必要定义统一的液冷加速卡接口形态,降低服务器适配难度,规范液冷数据中心设计。本报告主要制定标准PCIe接口形态的冷板式人工智能加速卡在结构、冷板、接头方面的设计要求。通过制定统一的设计指导,统一加速卡PCBA结构、冷板本体、快拆头等冷板式散热人工智能加速卡关键组件,通过规模化效益获得低成本冷板式散热加速卡解决方案;降低冷板式散热人工智能加速卡适配难度和周期,加速人工智能芯片上市和迭代周期;方便终端客户灵活选择适配业务场景的解决方案,降低部署和运维难度,提高部署效率;降低服务器针对不同厂商冷板式人工智能加速卡进行适配的成本投入和人力投入。