智算中心论文专站

AIDC Research Papers

Liquid Cooling AI Data Center Power & Thermal Systems
Current Issue

Volume 2026 · Issue 06-08

按期刊卷期页方式整理本期论文。每条仅使用日报已列出的可追溯公开来源,不新增未经核验事实。

Research Article算电协同

Peer-to-Peer Cloud Service Market for Data Centers Oriented to Computation-Electricity Coordination

Yugui Liu、Yibo Ding、Xudong Li、Jing Qu、Wenyi Zhang、Tong Qian、Wuyou Xiao、Zhengyang Hu

Published 2026-06-03 · arXiv · Credibility S

能源密集型数据中心已成为现代电力系统中重要的灵活负荷,凸显了算电协同的迫切需求。利用数据中心工作负载的时空灵活性是实现协同的有效途径,但现有研究忽视了地理分布式数据中心间计算资源共享的协作潜力,未能充分释放灵活性。本文提出双层算电协同框架,明确捕捉数据中心与电网的双向交互。首先构建面向地理分布式数据中心的点对点云服务市场(P2P-CSM),通过双边云服务交易利用区域异质性(如电价、冷却效率);其次将节点边际电价嵌入框架以反映网络阻塞和节点电价差异。

Abstract, interpretation and reference

Abstract

能源密集型数据中心已成为现代电力系统中重要的灵活负荷,凸显了算电协同的迫切需求。利用数据中心工作负载的时空灵活性是实现协同的有效途径,但现有研究忽视了地理分布式数据中心间计算资源共享的协作潜力,未能充分释放灵活性。本文提出双层算电协同框架,明确捕捉数据中心与电网的双向交互。首先构建面向地理分布式数据中心的点对点云服务市场(P2P-CSM),通过双边云服务交易利用区域异质性(如电价、冷却效率);其次将节点边际电价嵌入框架以反映网络阻塞和节点电价差异。

中文解读

研究问题:现有工作未考虑地理分布式数据中心间计算资源共享的协作潜力,难以充分挖掘工作负载的时空灵活性以支持算电协同。方法线索:提出双层算电协同框架,构建P2P-CSM实现双边交易,并嵌入节点边际电价反映网络阻塞。意义:该框架可帮助AI数据中心通过区域电价与冷却效率差异优化资源配置,提升电网互动能力。核验边界:仅基于所提供标题、作者、日期与摘要片段,未包含完整实验结果、具体数值或额外结论,需核对全文确认模型细节。

参考文献

Yugui Liu, Yibo Ding, Xudong Li, 等. Peer-to-Peer Cloud Service Market for Data Centers Oriented to Computation-Electricity Coordination[J/OL]. (2026-06-03)[2026-06-08]. http://arxiv.org/abs/2606.04981v1.

Full text
算电协同 论文图示
Research Article热管理与液冷

Maximizing Compute Capacity in AI Data Centers through Cooling, Energy Storage, and Computing Adaptation

Shaolei Ren、Mohammad A. Islam、Adam Wierman

Published 2026-05-30 · arXiv · Credibility S

人工智能部署日益受限于站点级电力容量,该容量需持续支持计算与非计算系统(主要是冷却)。非蒸发冷却系统的功率需求随夏季环境温度大幅上升,每天形成数小时高冷却功率期。在有限站点电力预算下最大化计算容量成为关键规划与运营挑战。基于峰值冷却功率保守调整计算规模,会在冷却功率较低的凉爽月份造成电力容量闲置;基于低冷却功率激进调整,则可能在夏季高温日导致总电力需求超出容量。本文提出相关方法以应对此问题。

Abstract, interpretation and reference

Abstract

人工智能部署日益受限于站点级电力容量,该容量需持续支持计算与非计算系统(主要是冷却)。非蒸发冷却系统的功率需求随夏季环境温度大幅上升,每天形成数小时高冷却功率期。在有限站点电力预算下最大化计算容量成为关键规划与运营挑战。基于峰值冷却功率保守调整计算规模,会在冷却功率较低的凉爽月份造成电力容量闲置;基于低冷却功率激进调整,则可能在夏季高温日导致总电力需求超出容量。本文提出相关方法以应对此问题。

中文解读

研究问题:站点级电力容量受冷却功率随环境温度波动影响,限制AI数据中心计算容量最大化。方法线索:分析冷却功率季节性变化规律,探讨计算系统规模调整策略,避免保守或激进 sizing 导致的容量浪费或超载。对AI数据中心/液冷/算电协同的意义:为热管理与电力协同提供规划思路,助力在有限电网容量下提升AI算力部署效率。核验边界:仅基于给定摘要片段,未包含完整方法细节与实验结论,需打开论文链接核验具体方案与量化结果。

参考文献

Shaolei Ren, Mohammad A. Islam, Adam Wierman. Maximizing Compute Capacity in AI Data Centers through Cooling, Energy Storage, and Computing Adaptation[J/OL]. (2026-05-30)[2026-06-08]. http://arxiv.org/abs/2606.00457v1.

Full text
热管理与液冷 论文图示
Research Article算电协同

Grid Capacity Expansion under Data Centers and Electrified Manufacturing Large Loads

Jiyong Lee、Melody Agustin、Joanne Langsdorf、Erhan Kutanoglu、Michael Baldea、Ilias Mitrai

Published 2026-05-28 · arXiv · Credibility S

本文研究数据中心与电气化制造大负荷下的电网容量扩展问题。构建多周期电网容量扩展模型,确定发电、储能与输电容量的最优投资方案,同时考虑小时级电力调度,以满足用电需求并最小化总规划运营成本。提出大负荷需求空间分布的新建模方法。将模型应用于模拟ERCOT系统的电网,规划期七年,数据中心和电气化炼油负荷分别占期末年用电量的17.5%和4.7%。最优投资策略使发电容量增加83.6%,并利用太阳能与储能的短建设周期。

Abstract, interpretation and reference

Abstract

本文研究数据中心与电气化制造大负荷下的电网容量扩展问题。构建多周期电网容量扩展模型,确定发电、储能与输电容量的最优投资方案,同时考虑小时级电力调度,以满足用电需求并最小化总规划运营成本。提出大负荷需求空间分布的新建模方法。将模型应用于模拟ERCOT系统的电网,规划期七年,数据中心和电气化炼油负荷分别占期末年用电量的17.5%和4.7%。最优投资策略使发电容量增加83.6%,并利用太阳能与储能的短建设周期。

中文解读

研究问题:数据中心与电气化制造大负荷驱动下的电网容量扩展规划。方法线索:采用多周期优化模型,整合发电、储能、输电投资决策与小时级调度约束,并引入大负荷空间分布新表征。对AI数据中心/算电协同的意义:为数据中心电力需求增长提供系统级容量规划框架,支持算电协同下的投资时序与资源配置。核验边界:结果基于ERCOT特征合成电网、七年规划期以及特定负荷占比,空间分布建模与成本最小化目标均限定于给定假设。

参考文献

Jiyong Lee, Melody Agustin, Joanne Langsdorf, 等. Grid Capacity Expansion under Data Centers and Electrified Manufacturing Large Loads[J/OL]. (2026-05-28)[2026-06-08]. http://arxiv.org/abs/2605.29053v2.

Full text
算电协同 论文图示
Research Article算电协同

GridPilot: Real-Time Grid-Responsive Control for AI Supercomputers

Denisa-Andreea Constantinescu、David Atienza

Published 2026-05-26 · arXiv · Credibility S

全球数据中心电力需求增速超过电网供应,系统运营商需要大型灵活负载在秒级调整功率以吸收风电和太阳能波动。对于多兆瓦AI/HPC设施,核心问题在于软件栈如何将电网请求快速转化为设施电表处的GPU功率实际变化。GridPilot提出三层预测控制器,分别在毫秒、秒和小时尺度运行,并配备确定性安全岛旁路实现快速响应,同时融入瞬时PUE校正,使调度承诺重新匹配实际能效。

Abstract, interpretation and reference

Abstract

全球数据中心电力需求增速超过电网供应,系统运营商需要大型灵活负载在秒级调整功率以吸收风电和太阳能波动。对于多兆瓦AI/HPC设施,核心问题在于软件栈如何将电网请求快速转化为设施电表处的GPU功率实际变化。GridPilot提出三层预测控制器,分别在毫秒、秒和小时尺度运行,并配备确定性安全岛旁路实现快速响应,同时融入瞬时PUE校正,使调度承诺重新匹配实际能效。

中文解读

研究问题:数据中心电力需求快速增长,电网要求AI/HPC负载秒级响应以匹配可再生能源波动。方法线索:GridPilot采用跨毫秒、秒、小时的三层预测控制架构,结合安全岛旁路与瞬时PUE校正机制。对AI数据中心/算电协同的意义:为算电协同提供可落地的实时响应框架,帮助数据中心成为电网灵活资源,提升整体能效匹配能力。核验边界:以上内容仅基于所给标题、摘要与主题,未添加实验平台、具体数值或额外结论,完整验证需查阅论文全文。

参考文献

Denisa-Andreea Constantinescu, David Atienza. GridPilot: Real-Time Grid-Responsive Control for AI Supercomputers[J/OL]. (2026-05-26)[2026-06-08]. http://arxiv.org/abs/2605.26384v1.

Full text
算电协同 论文图示
Research ArticleAI 运维优化

Energy-Aware Computing in the Year 2026

Roblex Nana Tchakoute、Claude Tadonki

Published 2026-05-23 · arXiv · Credibility S

高性能计算已进入Exascale时代,正致力于将其潜力用于生成式AI训练与应用。相应能耗极高,预测令人担忧,成为系统瓶颈。该问题对云-边-HPC连续体构成挑战,从低功耗物联网微控制器到多兆瓦数据中心均受影响。除财务成本外,绿色计算还受气候变化、碳足迹及能源供应限制驱动,需规范ICT活动。本文概述能源高效计算,纳入近期重要贡献。

Abstract, interpretation and reference

Abstract

高性能计算已进入Exascale时代,正致力于将其潜力用于生成式AI训练与应用。相应能耗极高,预测令人担忧,成为系统瓶颈。该问题对云-边-HPC连续体构成挑战,从低功耗物联网微控制器到多兆瓦数据中心均受影响。除财务成本外,绿色计算还受气候变化、碳足迹及能源供应限制驱动,需规范ICT活动。本文概述能源高效计算,纳入近期重要贡献。

中文解读

研究问题:Exascale HPC时代下生成式AI等应用导致能耗激增,成为云边端连续体的系统瓶颈。方法线索:文章从气候变化、碳排放与能源供应约束出发,梳理ICT活动规范需求,呈现能源高效计算的综合概述。对AI数据中心/液冷/算电协同的意义:强调多兆瓦数据中心能耗管理对AI运维优化的必要性,指出能源约束对算电协同的现实影响。核验边界:仅基于给定标题、作者、发表日期、摘要片段与主题,未涉及具体方法细节或实验结果,需打开论文链接核验完整内容。

参考文献

Roblex Nana Tchakoute, Claude Tadonki. Energy-Aware Computing in the Year 2026[J/OL]. (2026-05-23)[2026-06-08]. http://arxiv.org/abs/2605.24569v1.

Full text
AI 运维优化 论文图示
Research Article芯片与算力

ScaleAcross Explorer: Exploring Communication Optimization for Scale-Across AI Model Training

Minghao Li、Alicia Golden、Samuel Hsia、Michael Kuchnik、Adi Gangidi、Xu Zhang、Ashmitha Jeevaraj Shetty、Zachary DeVito

Published 2026-05-23 · arXiv · Credibility S

大规模语言模型训练的快速扩展需要将GPU资源分布在多个数据中心建筑和区域,我们称之为“scale-across”训练。随着基础设施扩大,系统设计空间日益复杂,涉及新模型架构、硬件异构性和不断演变的通信模式。基于Meta的生产经验,本文强调了在容纳数十万GPU的少数数据中心部署训练作业的复杂性。为加速探索庞大设计空间并实现前沿模型的高效训练,我们深入表征了三个关键设计维度:并行放置、并行调度和网络层技术。随后提出ScaleAcross Explorer优化器,考虑各维度相互作用并整体优化scale-across训练。

Abstract, interpretation and reference

Abstract

大规模语言模型训练的快速扩展需要将GPU资源分布在多个数据中心建筑和区域,我们称之为“scale-across”训练。随着基础设施扩大,系统设计空间日益复杂,涉及新模型架构、硬件异构性和不断演变的通信模式。基于Meta的生产经验,本文强调了在容纳数十万GPU的少数数据中心部署训练作业的复杂性。为加速探索庞大设计空间并实现前沿模型的高效训练,我们深入表征了三个关键设计维度:并行放置、并行调度和网络层技术。随后提出ScaleAcross Explorer优化器,考虑各维度相互作用并整体优化scale-across训练。

中文解读

研究问题:大规模AI模型训练需跨多个数据中心分布GPU资源,通信优化面临复杂设计空间。方法线索:基于Meta生产经验,表征并行放置、并行调度、网络层技术三维度,提出ScaleAcross Explorer优化器以整体考量维度交互。对AI数据中心/液冷/算电协同的意义:助力跨建筑区域的训练作业高效部署,探索通信模式以支持算力扩展。核验边界:仅依据Meta经验与测试床实验及模拟,摘要未提供具体性能数据或完整结论,需打开论文链接核验研究方法和结论。

参考文献

Minghao Li, Alicia Golden, Samuel Hsia, 等. ScaleAcross Explorer: Exploring Communication Optimization for Scale-Across AI Model Training[J/OL]. (2026-05-23)[2026-06-08]. http://arxiv.org/abs/2605.24326v1.

Full text
芯片与算力 论文图示
Research Article热管理与液冷

Co-Design Optimization for Data Center Cooling System via Digital Twin

Shrenik Jadhav、Zheng Liu

Published 2026-05-15 · arXiv · Credibility S

液冷外尺度超级计算机通过多个并行子回路组织的冷却厂散热,但如何在子回路间分配冷却剂分配单元(CDU)以及如何分配流量尚未得到系统解决。本文提出三层优化框架,联合确定CDU的整数分区、连续流量分配,以及每时间步的总流量和供应温度的协同设计优化,满足每子回路热安全约束。基于橡树岭国家实验室Frontier超级计算机数据构建Modelica仿真模型。通过降阶代理模型,评估25个CDU的611种可行分区,覆盖全年49353个时间步。比较三种逐步丰富的操作策略,从流量控制优化到完整协同设计。

Abstract, interpretation and reference

Abstract

液冷外尺度超级计算机通过多个并行子回路组织的冷却厂散热,但如何在子回路间分配冷却剂分配单元(CDU)以及如何分配流量尚未得到系统解决。本文提出三层优化框架,联合确定CDU的整数分区、连续流量分配,以及每时间步的总流量和供应温度的协同设计优化,满足每子回路热安全约束。基于橡树岭国家实验室Frontier超级计算机数据构建Modelica仿真模型。通过降阶代理模型,评估25个CDU的611种可行分区,覆盖全年49353个时间步。比较三种逐步丰富的操作策略,从流量控制优化到完整协同设计。

中文解读

研究问题:大规模液冷超级计算机中CDU跨子回路分配与流量分配缺乏系统方法。方法线索:构建三层优化框架,结合Modelica模型与降阶代理模型,对611种分区在全年数据上进行评估,比较从流量控制到全协同设计的策略。对AI数据中心/液冷/算电协同的意义:为液冷设施提供数字孪生驱动的冷却分配优化思路,支持热管理与能效协同。核验边界:结果仅基于Frontier超算数据与给定时间步,实际部署需验证模型假设与约束适用性。

参考文献

Shrenik Jadhav, Zheng Liu. Co-Design Optimization for Data Center Cooling System via Digital Twin[J/OL]. (2026-05-15)[2026-06-08]. http://arxiv.org/abs/2605.15516v1.

Full text
热管理与液冷 论文图示
Research Article算电协同

Battery-Assisted Operation of Hyperscale AI Data Centers under Connect-and-Manage Interconnection Practices

Xin Lu、Jing Qiu、Jiafeng Lin、Sihai An、Mingyang Sun、Junhua Zhao

Published 2026-05-14 · arXiv · Credibility S

新兴的连接与管理实践允许新的传输连接大型负载接入,同时实时执行公共耦合点(PCC)的时变可接受功率交换限制。超大规模人工智能数据中心需求可达数百兆瓦,其内部计算冷却动态快速演变,因此面临工作负载连续性要求与外部PCC限制之间的频繁冲突。本文提出一种电池辅助运行框架,其中现场电池储能系统(BESS)作为物理缓冲接口,以协调快速内部动态与时变互连限制。开发了一种连续性感知的能量计算模型,联合捕捉检查点约束的AI训练工作负载、信息技术计算功率吞吐特性以及IT冷却热动态。随后制定了两阶段决策框架。

Abstract, interpretation and reference

Abstract

新兴的连接与管理实践允许新的传输连接大型负载接入,同时实时执行公共耦合点(PCC)的时变可接受功率交换限制。超大规模人工智能数据中心需求可达数百兆瓦,其内部计算冷却动态快速演变,因此面临工作负载连续性要求与外部PCC限制之间的频繁冲突。本文提出一种电池辅助运行框架,其中现场电池储能系统(BESS)作为物理缓冲接口,以协调快速内部动态与时变互连限制。开发了一种连续性感知的能量计算模型,联合捕捉检查点约束的AI训练工作负载、信息技术计算功率吞吐特性以及IT冷却热动态。随后制定了两阶段决策框架。

中文解读

研究问题:连接与管理互连实践下,超大规模AI数据中心面临工作负载连续性与PCC时变功率限制的冲突。方法线索:提出BESS作为物理缓冲接口,构建连续性感知能量计算模型捕捉检查点约束AI训练负载、IT功率吞吐与冷却热动态,并采用两阶段决策框架。对AI数据中心/液冷/算电协同的意义:为算电协同提供BESS缓冲方案,缓解高功率需求与电网限制矛盾,支撑数据中心稳定运行。核验边界:仅依据给定标题、作者、发表日期、摘要片段与主题“算电协同”,未核验完整论文方法细节与结论。

参考文献

Xin Lu, Jing Qiu, Jiafeng Lin, 等. Battery-Assisted Operation of Hyperscale AI Data Centers under Connect-and-Manage Interconnection Practices[J/OL]. (2026-05-14)[2026-06-08]. http://arxiv.org/abs/2605.14105v1.

Full text
算电协同 论文图示