从算力芯片到网络架构:AIGC驱动智算中心六大维度创新升级

本站2025-03-19

智算中心是AI应用的核心载体基座,AIGC技术将会对传统ICT数字产业带来全面升级。2024年,大模型技术和应用为中国智算中心市场供需增长注入了强大动力。预计2025年,中国市场将新增GPU需求300万张以上,对智算中心新增需求超过3GW,预计未来3年,中国智算中心新增需求还将保持30%以上的增速。

 

 

大模型参数量、数据集和训练量继续向上突破,驱动智算集群超大规模化。智算布局呈现规模化、集群化趋势明显。单服务器性能的提升可有效降低服务器间参数、数据量等传输时延,提升计算效率,超越英伟达现有H系列的高性能GPU卡持续推出,单卡功率持续增加;依托高性能GPU卡搭建智算集群上升至10E级规模的智算集群将成为主流,100E级智算中心集群呼之欲出。预计2025年,以字节跳动为代表的头部厂商10万卡智算中心集群将建成投用。

 

从智算中心规模体量看,近10年来,智算中心IT负载规模出现3次跃迁。2015-2022年,头部客户GPU集群规模一般在千卡级,用于大数据平台及AI平台支撑,智算中心IT负载规模在1MW体量。2022-2023年,在大模型训练需求迅猛发展的推动下,智算中心算力资源池达到万卡规模,基地型智算中心部署开始超过10MW。2024年以来,国内大模型训练参数量超万亿,单一基地部署5-10万GPU卡集群,逐渐成为头部客户刚需,基地型数据中心规模跃升至200MW。

 

 

 

01

产业要求:发力绿色低碳化

 

“双碳”发展方向的引领下,随着智算中心集群规模的不断提升,绿色低碳化成为智算中心选址和运营的重要目标。在 “双碳” 背景下,智算中心作为高能耗设施,其绿色低碳发展至关重要。通过与绿色能源供给协同,可大幅降低碳排放,符合国家政策和行业发展要求;通过构建源网荷储一体化的绿色能源供给体系,将太阳能、风能等绿色能源发电设施与智算中心集群相结合,配合储能系统和智能电网,可以实现能源的优化配置和供需平衡;如中国柴达木绿色微电网算力中心示范项目。随着智算中心规模的扩大,能源需求也不断增加,与绿色能源供给协同,可确保能源的稳定供应,满足智算中心的运行需求。

 

此外,在政策支持与引导下,建立支持智算中心建设的能源指标和绿色电力供给协调机制,明确新建和改扩建智算中心绿电使用考核标准,将推动智算中心集群布局和绿色能源供给的协同发展。

 

 

02

算力芯片:供给多元化与融合加速

 

智算中心供给多元化体现在算力芯片多元化、供应主体多元化、服务多元化等。

 

 

 

 

 

CPU、GPU、FPGA等异构算力多元融合

 

不同类型的计算芯片各有优势:CPU通用性强,适合处理复杂逻辑和控制任务;GPU在并行计算和图形处理方面表现出色,常用于深度学习中的模型训练和推理;FPGA具有可重构性,能根据特定需求灵活定制计算架构,在一些对实时性要求高的场景如自动驾驶中具有优势。智算中心将这些异构算力融合在一起,根据不同应用场景的需求进行灵活调度和协同工作。此外,智算中心通过引入新兴算力,如专门为神经网络计算设计的NPU,在处理人工智能任务时具有更高的能效比和计算效率。

 

 

 

 

 

供应主体多元化

 

 

传统IT企业,如浪潮、华为、联想等,凭借其在硬件制造和技术研发方面的优势,积极布局智算中心建设,提供高性能的智算算力设备和解决方案;

 

互联网科技企业,如BAT等,利用其在云计算、大数据、人工智能等领域的技术积累和应用场景优势,打造自己的智算平台,为自身业务和外部客户提供算力服务。

 

专业算力服务提供商,专注于提供智算算力服务,通过整合各种算力资源为用户提供一站式的算力解决方案,满足不同用户的多样化需求。

 

 

 

 

 

 

算力服务形式多元化

 

 

公有云算力服务:用户可以根据自身需求,随时从公有云平台获取弹性的智算算力资源,按使用量付费,无需自己建设和维护庞大的计算设施,降低了使用门槛和成本,适合中小企业和临时性的计算任务。

 

私有云算力服务:对于对数据安全性和隐私性要求较高的企业或机构,可搭建私有云智算中心,将算力资源部署在内部,由自己进行管理和控制,确保数据的安全和可控。

 

混合云算力服务:结合公有云和私有云的优势,用户可以根据不同任务的需求,灵活地在公有云和私有云之间调配算力资源,既满足了部分任务对数据安全的要求,又能利用公有云的弹性和扩展性。

 

 

03

网络架构:IB网络与增强无损以太网之争延续

 

大模型训练时,并行计算节点越多,通信效率越重要,智算网络性能是集群算力提升的关键。智算中心的网络要求包括高带宽、零丢包、超低时延、高可用性(月级零故障)。当前智算中心IB网络架构性能最优,但存在技术封闭、价格高等痛点,国内用户倾向的无损以太网架构存在性能不足,时延过长等挑战。

 

增强无损以太网可重构高扩展、高稳定、高可靠的以太网堆栈,期望在性价比上全面赶上IB。由 AMD、Intel、Meta、微软、博通、华为、百度等头部云商、科技公司及硬件厂商等发起成立的超以太网联盟(Ultra Ethernet Consortium,UEC),通过加强以太网全栈协议层及跨层的优化改造,弥补传统网络的不足,打造开放生态的AI无损网络。

 

 

04

供配电系统:设备与解决方案持续升级

 

 

 

 

 

高功率传输与分配

 

智算中心需采用更高规格的母线、电缆等输电设备,如具备更大电流承载能力的母线槽,以满足高供电密度下的功率传输需求;同时,升级配电开关设备,使其能够可靠地分断和保护高电流电路。

 

 

 

 

 

高效变压与整流

 

应用高效的变压器和整流器,提高电能转换效率,降低在变压和整流过程中的能量损耗。例如,采用新型节能变压器,其空载损耗和负载损耗都更低。

 

 

 

 

 

智能监控与管理

 

配备智能电力监控系统,实时监测供电系统的运行参数,如电压、电流、功率、温度等。通过大数据分析和人工智能技术,实现对供电系统的故障预测、智能调度和优化控制。

 

 

 

 

 

一体化集成架构

 

采用一体化电源系统,将中压模组、变压模组、UPS不间断电源、馈电模组等进行一体式布局和安装,减少供电级数,缩短供电链路,提高系统的集成度和可靠性。

 

 

 

 

 

分布式供电架构

改变传统的集中式供电方式,采用分布式供电架构,将电源设备更靠近负载,减少长距离输电的损耗,提高供电的灵活性和可靠性。

 

 

05

暖通系统:液冷将成主流

 

理论上风冷方式可以满足机柜功率密度在30KW以下的服务器的散热需求,但随着机柜功率密度的提升,风冷能效会下降。中国数据中心领域产业政策要求大型数据中心PUE在1.35以下,以北京市为代表的北方区域在数据中心项目节能审查批复时,均将数据中心项目PUE要求提高至1.25以内,随着功率密度的提升,风冷方式在满足更低PUE方面存在挑战。

 

智算中心冷板式液冷和浸没式液冷的能效水平相较于风冷具备更大优势,PUE可下降至1.1以内。液冷制冷应用将从局部试点状态逐步转向爬坡期,单机柜功率密度达到20KW时液冷与风冷投资成本已基本持平,液冷应用将加快普及,2025年国内60%以上智算中心项目将采用液冷技术。

 

 

06

管理系统:智能化诉求日益提升

 

 

 

 

 

能源监测与分析

 

建立完善的能源监测系统,对智算中心的能耗数据进行实时采集和分析,找出能耗瓶颈和节能潜力点,为能源管理提供决策依据。

 

 

 

 

 

节能控制策略

 

采用智能节能控制策略,根据智算中心的负载变化,自动调整供电系统的运行模式,如动态调整UPS的输出功率、优化制冷系统的运行等,提高能源利用效率。

 

 

 

 

 

远程运维与故障诊断

 

支持远程运维功能,运维人员可以通过网络远程对供电系统进行监控、操作和维护,提高运维效率,减少现场运维工作量;同时,具备强大的故障诊断能力,能够快速定位故障点并提供解决方案。

 

 

 

 

 

快速响应与应急处理

 

建立快速响应机制,当供电系统出现故障或异常时,能够迅速启动应急预案,保障智算中心的正常运行;配备专业的应急维修队伍和充足的备品备件,确保在最短时间内恢复供电。