- 发布者:octc
- 来源:octc
- 发布时间:2024-08-08
8月8日,2024开放计算中国峰会在北京举行,开放计算如何加速人工智能发展成为大会焦点话题。智能时代,大模型正在重构AI基础设施,数据中心迎来算力、网络、存储、管理、能效的全向Scale创新挑战,需构建全球化的开放协作平台,合力解决上述重大问题,通过对人工智能基础设施的全面优化,为AI发展赋予无限可能。
2024开放计算中国峰会由开放计算社区OCP及开放标准组织OCTC(中国电子工业标准化技术协会开放计算标准工作委员会)联合主办,以“开放协同:协作、智慧、创新”为主题,聚焦数据中心基础设施、人工智能创新、开放计算生态、绿色计算发展、开放系统&CXL等议题,包括百度、中国移动、阿里云、中国工商银行、字节跳动、三星、浪潮信息、英伟达、伟创力、Solidigm、英特尔、世纪互联等在内的社区领袖、技术大咖、行业专家,以及千余名IT工程师和数据中心从业者参与大会。
社区激发创新活力,全球化协作平台加速AI创新
生成式人工智能的飞跃式进步正在加速智能时代的到来。在Scaling law约束下,随着大模型参数量的持续提升,计算当量与数据量亦随之激增,数据中心基础设施所面临的全方位创新,将越来越依赖于更加广泛的全球化开放协作,加速AI技术创新与应用,共同构建一个人机高度交互的智能世界。
OCP基金会理事David Ramku(Meta 数据中心基础设施高级总监)表示,“生成式人工智能的增长正在重构数据中心的生态系统,开放计算项目的全球化协作创新模式可以最大限度激发创新活力。OCP将继续投资关乎未来的战略性技术,如人工智能和机器学习、光学技术、先进的电源管理和冷却技术、Chiplets等,为应对IT生态系统的新变化做好准备。”
OCTC秘书长陈海认为:“应用是中国人工智能产业的核心优势之一,理应让用户参与到人工智能的探索和应用中,从用户思维出发制定更切实落地的规范标准,以此有效降低技术获取成本,推动和加速数据中心各领域的技术创新与成果普惠,让更多的组织和个人从中获益,这是开放社区长久繁荣的核心所在。”
正因为意识到开放的力量,开放计算受到越来越多公司的支持并积极投身其中。在过去的三年中,OCP的成员数量从250多家增长至360多家,增幅接近50%,社区项目和子项目数量超过40个。与此同时,OCTC的成员数量也在一年内迅速翻倍,从40多家增长至近百家,快速构建起包含基础设施、测评与服务、运维管理等在内的标准框架,并将通用计算、柜计算、AI异构、液冷等列入标准化建设的重点内容。
AI重构数据中心基础设施
生成式人工智能正在重构数据中心基础设施,对计算效能、存储容量及性能、网络方案、资源调度管理、能效控制与管理各个方面均提出更高要求,全向Scale(即 Scale Up+ Scale Out)能力成为构建先进AI基础设施的核心。在本届峰会上,包括CXL技术、面向AI的网络架构、首款16通道PCIe 5.0 TLC固态硬盘等一大批创新技术与产品方案,将进一步提升人工智能基础设施的Scale能力。
百度集团副总裁侯震宇指出,在大模型时代,预计未来十年内,AI算力需求将呈现爆发式增长,并行计算成为实现大模型黄金法则Scaling Laws的最优解。AI新基建正推动产业链全面变革,展现出“极致高密、极致互联、极致规模”的重构特征。
中国移动通信有限公司研究院副院长段晓东表示,大模型技术快速向更大规模、更强能力发展,大算力是大模型创新落地的关键,超万卡集群应运而生。面向超万卡集群需要基础技术创新,包含面向智算中心Scale out网络的GSE技术、面向GPU卡间互联的Scale up互联OISA技术,以及跨集群分布式训练等,共同支撑智算产业快速发展。
阿里云基础设施超高速互联负责人孔阳认为,随着云计算和AI大模型应用的快速发展,计算规模呈现出数千数万倍的增长,单任务的计算量也成百上千倍的增长。但受制于芯片在算力密度、访存规模和带宽的迟滞,服务器机柜级Scale up互连成为当下技术热点, 作为开放生态系统,Scale up开放生态系统ALS和CPU内存扩展的CXL技术生态已成为行业的重要方向。
中国工商银行数据中心资深经理陈庆提到,AI大模型的部署对算力底座提出新的要求,包括多算力中心互联,提供不同等级按需服务,实现网络和计算资源的统一管理和编排,同时要兼顾性能和连续运行,减少故障中断,并通过空间分割部署不同功率密度及液冷产品,以支撑AI应用。
三星电子副总裁、先行开发团队负责人张实完表示,生成式人工智能带来数据量的激增,对存储的高容量、性能和低功耗提出前所未有的高要求。需要开发承载海量数据的存储产品,以满足AI时代对存储容量的巨大需求,为AI模型训练、大数据分析等应用提供强有力的存储支持。
浪潮信息服务器产品线总经理赵帅认为,算力迭代是Scale up与Scale out并存迭代、快速发展的过程。现阶段,开放加速模组和开放网络实现了算力的Scale,开放固件解决方案实现了管理的Scale,开放标准和开放生态实现了基础设施的Scale,未来要以开放创新加速算力系统全向scale,应对大模型Scaling Law。
字节跳动资深网络架构师霍朋飞表示,大模型训练、推理等AI业务需求快速迭代,对网络带来新挑战。高达数十万张GPU的协同训练对网络底座的规模、性能、成本提出高要求。开放、软硬协同、端网融合的网络架构,已成为高性能高稳定互联的基石。
英伟达网络高级总监宋庆春认为,数据中心走向了AI工厂和AI云两个新型的应用场景,超大规模分布式并行计算成为新型应用场景的关键特征,网络成为了决定数据中心性能的核心。支持高带宽、低延迟、零Jitter、网络数字孪生、网络计算、动态路由、应用性能隔离等技术的新型AI网络应需而生。AI网络将AI数据中心的算力性能提升到了极致,将会极大保护用户的投资。
开放算力模组规范(OCM)立项,推动“一切计算皆AI”
生成式人工智能的快速发展,带来了更加丰富的智能应用场景,而智能应用的繁荣必然使得推理需要更多的算力来支撑,通用算力作为一种更加普遍且更易获得的算力,一旦拥有AI计算的能力显然会大大加速智能化进程。但目前x86、ARM、RISC-V等不同架构的CPU协议标准不统一,导致硬件开发、固件适配、部件测试等耗时巨大,同时为了更好的适合AI推理高并行的计算特点,CPU总线互联带宽、内存带宽及容量也需要特别优化,使得系统功耗、总线速率、电流密度不断提升……多种因素叠加之下,算力系统的设计与开发周期漫长且成本高昂。
在CPU多元化发展的趋势下,如何快速完成CPU到计算系统的创新,使其能够适用于AI推理负载,已经成为缓解当前AI算力稀缺、推动人工智能发展的关键环节。
为此,会上开放算力模组规范(OCM)正式立项,首批成员包括中国电子技术标准化研究院、百度、浪潮信息、英特尔、AMD、小红书、联想、超聚变等,以CPU、内存为核心构建最小算力单元,兼容x86、ARM等多架构芯片的多代处理器,方便用户根据应用场景灵活、快速组合。OCM开放标准的制定,能够为用户提供更多通用性强、绿色高效、安全可靠的算力选择。
值得关注的是,OCP首次设立了开放计算最佳创新奖、开放计算最佳实践奖和开放计算生态贡献奖,以此表彰在上述领域做出卓越贡献的社区成员。首届开放计算最佳创新奖由阿里云、三星和村田获得,百度和字节跳动获得开放计算最佳实践奖,浪潮信息和安谋科技获得开放计算生态贡献奖。
此外,大会还发布了开放计算十大创新成果,包括超大规模数据中心部署指南、Evenstar开放式5G平台、液冷式人工智能加速卡设计技术要求等等,进一步体现出开放计算在数据中心领域所具备的创新活力。随着社区活力的激发、跨社区合作的增多、标准与规范的持续完善,创新的边界将得到进一步拓展,开放计算将为AI创新赋予无限可能,推动人工智能更加深刻地重构数据中心生态。