智算中心论文专站

AIDC Research Papers

Liquid Cooling AI Data Center Power & Thermal Systems
Current Issue

Volume 2026 · Issue 06-10

按期刊卷期页方式整理本期论文。每条仅使用日报已列出的可追溯公开来源,不新增未经核验事实。

Research Article算电协同

Revisiting "Cooler is Better": ITD-Aware Per-CPU Thermal Optimization for Sustainable Data Center Operation

Jason Crop、Hayden Moore、Sudeep Pasricha

Published 2026-06-10 · arXiv · Credibility S

随着数据中心能耗接近电网约束,优化传统服务器基础设施对可持续增长至关重要。“更冷更好”的长期假设在现代低压CPU上并不完全成立,反温度依赖(ITD)导致低温时供电电压升高,形成非单调的性能每瓦曲线,效率在中间热节点达到峰值。本文首次在商用Intel Xeon CPU上实证表征ITD,表明效率最优温度与CPU具体型号相关,且常高于典型数据中心运行条件。来自亚马逊和Equinix等商用云平台的测量显示,约一半高功率CPU运行温度比效率最优热节点低约10°C。通过实施ITD感知的CPU热分组与相应优化,可提升可持续数据…

Abstract, interpretation and reference

Abstract

随着数据中心能耗接近电网约束,优化传统服务器基础设施对可持续增长至关重要。“更冷更好”的长期假设在现代低压CPU上并不完全成立,反温度依赖(ITD)导致低温时供电电压升高,形成非单调的性能每瓦曲线,效率在中间热节点达到峰值。本文首次在商用Intel Xeon CPU上实证表征ITD,表明效率最优温度与CPU具体型号相关,且常高于典型数据中心运行条件。来自亚马逊和Equinix等商用云平台的测量显示,约一半高功率CPU运行温度比效率最优热节点低约10°C。通过实施ITD感知的CPU热分组与相应优化,可提升可持续数据…

中文解读

研究问题:传统“更冷更好”假设在现代CPU上因ITD效应不再成立,导致数据中心热管理与能效优化存在偏差。方法线索:基于商用Intel Xeon CPU的实证测量,分析ITD对电压与效率的影响,识别CPU型号特定的最优温度区间。意义:该发现直接服务于算电协同主题,有助于数据中心在电网约束下通过调整热运行点降低总体能耗,避免过度制冷造成的额外电力浪费。核验边界:结论仅基于论文提供的摘要描述,未包含具体实验数值、完整方法细节或最终性能结果,需查阅全文进一步核实。

参考文献

Jason Crop, Hayden Moore, Sudeep Pasricha. Revisiting "Cooler is Better": ITD-Aware Per-CPU Thermal Optimization for Sustainable Data Center Operation[J/OL]. (2026-06-10)[2026-06-10]. http://arxiv.org/abs/2606.11163v1.

Full text 中文海报
算电协同 论文图示
Research Article芯片与算力

Space-CIM: Enabling Compute-In-Memory Accelerators for Thermally-Constrained Space Platforms

Sohan Salahuddin Mugdho、Md. Shahedul Hasan、Cheng Wang

Published 2026-06-04 · arXiv · Credibility S

人工智能算力需求的快速增长推动了数据中心的大规模建设,引发能源与可持续性危机。受太空丰富太阳能及发射成本下降的推动,轨道数据中心成为AI算力基础设施扩展的潜在路径。然而,真空环境下计算系统仅依赖辐射冷却,需要大面积散热器,这对标准液冷/风冷计算机的部署构成重大热管理挑战。本研究探讨空间热约束对配备高带宽内存的GPU及新兴存算一体加速器的影响,开发了辐射器在环协同设计方法,直接关联热约束与加速器架构。

Abstract, interpretation and reference

Abstract

人工智能算力需求的快速增长推动了数据中心的大规模建设,引发能源与可持续性危机。受太空丰富太阳能及发射成本下降的推动,轨道数据中心成为AI算力基础设施扩展的潜在路径。然而,真空环境下计算系统仅依赖辐射冷却,需要大面积散热器,这对标准液冷/风冷计算机的部署构成重大热管理挑战。本研究探讨空间热约束对配备高带宽内存的GPU及新兴存算一体加速器的影响,开发了辐射器在环协同设计方法,直接关联热约束与加速器架构。

中文解读

研究问题聚焦于空间平台热约束对GPU与存算一体加速器部署的限制。方法线索围绕辐射器在环协同设计,将热管理直接嵌入加速器架构探索。研究对AI数据中心液冷与算电协同的意义在于揭示轨道计算的热瓶颈,为未来空间AI基础设施提供架构参考。核验边界仅限于提供的标题、作者、发表日期、摘要片段及主题,未包含完整实验结果或性能数据,需打开论文链接核验完整方法与结论。

参考文献

Sohan Salahuddin Mugdho, Md. Shahedul Hasan, Cheng Wang. Space-CIM: Enabling Compute-In-Memory Accelerators for Thermally-Constrained Space Platforms[J/OL]. (2026-06-04)[2026-06-10]. http://arxiv.org/abs/2606.05741v1.

Full text 中文海报
芯片与算力 论文图示
Research Article算电协同

Peer-to-Peer Cloud Service Market for Data Centers Oriented to Computation-Electricity Coordination

Yugui Liu、Yibo Ding、Xudong Li、Jing Qu、Wenyi Zhang、Tong Qian、Wuyou Xiao、Zhengyang Hu

Published 2026-06-03 · arXiv · Credibility S

能源密集型数据中心已成为现代电力系统中重要的灵活负荷,凸显算电协同的迫切需求。利用数据中心工作负载的时空灵活性是实现协同的有效途径。然而现有研究忽视地理分布式数据中心间计算资源共享的协作潜力,未能充分释放灵活性。本文提出双层算电协同框架,明确捕捉数据中心与电网的双向交互。首先构建面向地理分布式数据中心的点对点云服务市场,支持双边云服务交易以利用区域异质性(如电价、冷却效率)。其次将节点边际电价嵌入框架以反映网络阻塞和节点电价差异。

Abstract, interpretation and reference

Abstract

能源密集型数据中心已成为现代电力系统中重要的灵活负荷,凸显算电协同的迫切需求。利用数据中心工作负载的时空灵活性是实现协同的有效途径。然而现有研究忽视地理分布式数据中心间计算资源共享的协作潜力,未能充分释放灵活性。本文提出双层算电协同框架,明确捕捉数据中心与电网的双向交互。首先构建面向地理分布式数据中心的点对点云服务市场,支持双边云服务交易以利用区域异质性(如电价、冷却效率)。其次将节点边际电价嵌入框架以反映网络阻塞和节点电价差异。

中文解读

研究问题:现有研究未考虑地理分布式数据中心间计算资源共享的协作潜力,难以充分释放工作负载时空灵活性以支持算电协同。方法线索:提出双层算电协同框架,构建点对点云服务市场实现双边交易,并嵌入节点边际电价反映网络阻塞。对AI数据中心/液冷/算电协同的意义:通过利用区域电价与冷却效率差异,促进数据中心与电网双向互动,提升算电协同能力。核验边界:仅依据所提供标题、作者、发表日期、摘要片段与主题进行解读,未核验完整论文方法与结论,需打开链接确认。

参考文献

Yugui Liu, Yibo Ding, Xudong Li, 等. Peer-to-Peer Cloud Service Market for Data Centers Oriented to Computation-Electricity Coordination[J/OL]. (2026-06-03)[2026-06-10]. http://arxiv.org/abs/2606.04981v1.

Full text 中文海报
算电协同 论文图示
Research Article热管理与液冷

Maximizing Compute Capacity in AI Data Centers through Cooling, Energy Storage, and Computing Adaptation

Shaolei Ren、Mohammad A. Islam、Adam Wierman

Published 2026-05-30 · arXiv · Credibility S

人工智能部署日益受限于站点级电力容量,该容量需同时支持计算系统与非计算系统(主要是冷却)。在非蒸发冷却系统中,冷却功率需求随夏季环境温度大幅上升,形成每天持续数小时的周期性高冷却功率时段。因此,在有限站点级电力预算下最大化计算容量成为重要规划与运营挑战。基于峰值冷却功率保守配置计算系统,会在冷却功率低于峰值时造成站点电力容量闲置,尤其在较凉爽月份;基于低冷却功率激进配置则可能在夏季炎热日导致总电力需求超过站点容量。本文提出Com…

Abstract, interpretation and reference

Abstract

人工智能部署日益受限于站点级电力容量,该容量需同时支持计算系统与非计算系统(主要是冷却)。在非蒸发冷却系统中,冷却功率需求随夏季环境温度大幅上升,形成每天持续数小时的周期性高冷却功率时段。因此,在有限站点级电力预算下最大化计算容量成为重要规划与运营挑战。基于峰值冷却功率保守配置计算系统,会在冷却功率低于峰值时造成站点电力容量闲置,尤其在较凉爽月份;基于低冷却功率激进配置则可能在夏季炎热日导致总电力需求超过站点容量。本文提出Com…

中文解读

研究问题:站点级电力容量同时支撑计算与冷却系统,夏季高温导致冷却功率周期性升高,造成算力配置的两难。方法线索:分析冷却功率随环境温度的变化规律,比较保守与激进两种计算系统容量配置策略,提出通过冷却、储能与计算适应相结合的方式进行优化。对AI数据中心/液冷/算电协同的意义:有助于在热管理与液冷主题下平衡站点电力预算与算力输出,提升数据中心能效规划与运营协同能力。核验边界:仅依据给定标题、作者、发表日期、摘要片段与主题,具体方法细节与结论需打开论文链接核验。

参考文献

Shaolei Ren, Mohammad A. Islam, Adam Wierman. Maximizing Compute Capacity in AI Data Centers through Cooling, Energy Storage, and Computing Adaptation[J/OL]. (2026-05-30)[2026-06-10]. http://arxiv.org/abs/2606.00457v1.

Full text 中文海报
热管理与液冷 论文图示
Research Article算电协同

Grid Capacity Expansion under Data Centers and Electrified Manufacturing Large Loads

Jiyong Lee、Melody Agustin、Joanne Langsdorf、Erhan Kutanoglu、Michael Baldea、Ilias Mitrai

Published 2026-05-28 · arXiv · Credibility S

本文研究新兴数据中心与电气化制造大负荷下的电网扩展问题。作者构建多周期电网容量扩展模型,确定发电、储能与输电容量的最优投资方案,同时考虑小时级电力调度,以满足电力需求并最小化规划与运行总成本。文中还提出针对大负荷需求空间分布的新建模方法。该模型用于分析符合ERCOT系统特征的合成电网在七年规划期内的扩展,数据中心与电气化炼油负荷分别占规划末期年用电量的17.5%与4.7%。

Abstract, interpretation and reference

Abstract

本文研究新兴数据中心与电气化制造大负荷下的电网扩展问题。作者构建多周期电网容量扩展模型,确定发电、储能与输电容量的最优投资方案,同时考虑小时级电力调度,以满足电力需求并最小化规划与运行总成本。文中还提出针对大负荷需求空间分布的新建模方法。该模型用于分析符合ERCOT系统特征的合成电网在七年规划期内的扩展,数据中心与电气化炼油负荷分别占规划末期年用电量的17.5%与4.7%。

中文解读

研究问题:数据中心与电气化制造形成的大负荷如何驱动电网容量规划。方法线索:建立多周期扩展模型,纳入小时级调度与大负荷空间分布新方法,以最小化总成本。对AI数据中心/算电协同的意义:模型可支撑数据中心负荷接入下的发电与储能投资决策,揭示太阳能与储能快速建设对算电协同的潜在作用。核验边界:结论仅基于提供的摘要描述,具体投资结果与ERCOT合成电网细节需打开论文链接核验。

参考文献

Jiyong Lee, Melody Agustin, Joanne Langsdorf, 等. Grid Capacity Expansion under Data Centers and Electrified Manufacturing Large Loads[J/OL]. (2026-05-28)[2026-06-10]. http://arxiv.org/abs/2605.29053v2.

Full text 中文海报
算电协同 论文图示
Research Article算电协同

GridPilot: Real-Time Grid-Responsive Control for AI Supercomputers

Denisa-Andreea Constantinescu、David Atienza

Published 2026-05-26 · arXiv · Credibility S

全球数据中心电力需求增速超过电网供应能力,系统运营商需要大型灵活负载在秒级调整功率以吸收风光波动。对于多兆瓦AI/HPC设施,核心问题是软件栈将电网请求转化为设施电表GPU功率变化的速度。GridPilot提出三层预测控制器,跨毫秒、秒和小时尺度运行,并配备确定性安全岛旁路实现快速响应。在三GPU NVIDIA V100测试平台上,端到端触发到目标响应达97.2 ms,比北欧快速频率储备700 ms要求快6.9倍,同时纳入瞬时PUE校正以匹配调度承诺。

Abstract, interpretation and reference

Abstract

全球数据中心电力需求增速超过电网供应能力,系统运营商需要大型灵活负载在秒级调整功率以吸收风光波动。对于多兆瓦AI/HPC设施,核心问题是软件栈将电网请求转化为设施电表GPU功率变化的速度。GridPilot提出三层预测控制器,跨毫秒、秒和小时尺度运行,并配备确定性安全岛旁路实现快速响应。在三GPU NVIDIA V100测试平台上,端到端触发到目标响应达97.2 ms,比北欧快速频率储备700 ms要求快6.9倍,同时纳入瞬时PUE校正以匹配调度承诺。

中文解读

研究问题:数据中心电力需求增速超过电网,如何在秒级将电网请求转化为GPU功率实际变化。方法线索:GridPilot采用三层预测控制器,覆盖毫秒至小时尺度,并以确定性安全岛旁路保障快速响应,在真实三GPU硬件平台完成测试。对AI数据中心/算电协同的意义:为多兆瓦AI设施提供可测量的电网响应能力,支持可再生能源消纳与功率承诺结算。核验边界:结果基于给定摘要中的三GPU V100测试床,完整方法与结论需打开论文链接核验。

参考文献

Denisa-Andreea Constantinescu, David Atienza. GridPilot: Real-Time Grid-Responsive Control for AI Supercomputers[J/OL]. (2026-05-26)[2026-06-10]. http://arxiv.org/abs/2605.26384v1.

Full text 中文海报
算电协同 论文图示
Research ArticleAI 运维优化

Energy-Aware Computing in the Year 2026

Roblex Nana Tchakoute、Claude Tadonki

Published 2026-05-23 · arXiv · Credibility S

高性能计算已进入Exascale时代,正全力支持生成式AI等大规模应用,但相应能耗极高且预测警示,使其成为系统瓶颈。该挑战贯穿云-边-HPC全连续体,从低功耗物联网微控制器到多兆瓦数据中心。除财务成本外,绿色计算还受气候变化、碳足迹及能源生产供应限制驱动,亟需规范信息通信技术活动。本文全面概述能源高效计算,纳入近期重要贡献。

Abstract, interpretation and reference

Abstract

高性能计算已进入Exascale时代,正全力支持生成式AI等大规模应用,但相应能耗极高且预测警示,使其成为系统瓶颈。该挑战贯穿云-边-HPC全连续体,从低功耗物联网微控制器到多兆瓦数据中心。除财务成本外,绿色计算还受气候变化、碳足迹及能源生产供应限制驱动,亟需规范信息通信技术活动。本文全面概述能源高效计算,纳入近期重要贡献。

中文解读

研究问题:HPC进入Exascale后,生成AI训练与应用导致能耗激增,成为云边端全链路瓶颈。方法线索:文章从气候变化、碳排放与能源供应约束出发,梳理ICT活动规范需求,综述能效计算最新进展。对AI数据中心/液冷/算电协同的意义:强调多兆瓦数据中心能耗管理对AI运维优化的必要性,提示能源约束将影响算力部署。核验边界:仅基于给定摘要与主题,未提供具体方法细节或实验数据,需打开论文链接核验完整结论。

参考文献

Roblex Nana Tchakoute, Claude Tadonki. Energy-Aware Computing in the Year 2026[J/OL]. (2026-05-23)[2026-06-10]. http://arxiv.org/abs/2605.24569v1.

Full text 中文海报
AI 运维优化 论文图示
Research Article芯片与算力

ScaleAcross Explorer: Exploring Communication Optimization for Scale-Across AI Model Training

Minghao Li、Alicia Golden、Samuel Hsia、Michael Kuchnik、Adi Gangidi、Xu Zhang、Ashmitha Jeevaraj Shetty、Zachary DeVito

Published 2026-05-23 · arXiv · Credibility S

大型语言模型训练的快速扩展需要将GPU资源分布在多个数据中心建筑和区域,这种范式被称为“scale-across”训练。随着基础设施扩展,系统设计空间日益复杂,涵盖新模型架构、硬件异构性和演变中的通信模式。基于Meta生产经验,论文强调在容纳数十万GPU的数个数据中心部署训练作业的复杂性。为加速大型设计空间探索并支持前沿模型高效训练,研究对并行性放置、并行性调度和网络层技术三个关键设计维度进行深入表征,进而提出ScaleAcross Explorer优化器,该工具综合考虑各维度相互作用并整体优化scale-acr…

Abstract, interpretation and reference

Abstract

大型语言模型训练的快速扩展需要将GPU资源分布在多个数据中心建筑和区域,这种范式被称为“scale-across”训练。随着基础设施扩展,系统设计空间日益复杂,涵盖新模型架构、硬件异构性和演变中的通信模式。基于Meta生产经验,论文强调在容纳数十万GPU的数个数据中心部署训练作业的复杂性。为加速大型设计空间探索并支持前沿模型高效训练,研究对并行性放置、并行性调度和网络层技术三个关键设计维度进行深入表征,进而提出ScaleAcross Explorer优化器,该工具综合考虑各维度相互作用并整体优化scale-acr…

中文解读

研究问题:大规模AI模型训练需跨多个数据中心分配GPU,通信优化面临复杂设计空间。方法线索:基于Meta生产经验,对并行性放置、并行性调度、网络层技术三维度进行表征,提出ScaleAcross Explorer优化器以整体优化训练。对AI数据中心/算电协同的意义:有助于在多建筑、多区域GPU集群中提升通信效率,支持前沿模型开发。核验边界:仅依据给定标题、作者、发表日期、摘要片段与主题,实验与模拟结果细节未完整呈现,需核验原论文全文。

参考文献

Minghao Li, Alicia Golden, Samuel Hsia, 等. ScaleAcross Explorer: Exploring Communication Optimization for Scale-Across AI Model Training[J/OL]. (2026-05-23)[2026-06-10]. http://arxiv.org/abs/2605.24326v1.

Full text 中文海报
芯片与算力 论文图示