智算中心论文专站

AIDC Research Papers

Liquid Cooling AI Data Center Power & Thermal Systems
Current Issue

Volume 2026 · Issue 06-12

按期刊卷期页方式整理本期论文。每条仅使用日报已列出的可追溯公开来源,不新增未经核验事实。

Research Article算电协同

Revisiting "Cooler is Better": ITD-Aware Per-CPU Thermal Optimization for Sustainable Data Center Operation

Jason Crop、Hayden Moore、Sudeep Pasricha

Published 2026-06-10 · arXiv · Credibility S

随着数据中心能耗接近电网约束,优化传统服务器基础设施对可持续增长至关重要。长期以来“更冷更好”的假设,即降低CPU温度可减少功耗,并不完全适用于现代低压CPU,因为逆温度依赖(ITD)会导致低温下供电电压升高。这形成非单调的性能每瓦曲线,效率在中间热节点达到峰值。本文首次在商用Intel Xeon CPU上实证表征ITD,证明效率最优温度与具体CPU部件相关,且常高于典型数据中心运行条件。来自Amazon和Equinix等商用云平台的测量显示,约一半高功率CPU运行温度比效率最优点低约10°C。通过实施ITD感知…

Abstract, interpretation and reference

Abstract

随着数据中心能耗接近电网约束,优化传统服务器基础设施对可持续增长至关重要。长期以来“更冷更好”的假设,即降低CPU温度可减少功耗,并不完全适用于现代低压CPU,因为逆温度依赖(ITD)会导致低温下供电电压升高。这形成非单调的性能每瓦曲线,效率在中间热节点达到峰值。本文首次在商用Intel Xeon CPU上实证表征ITD,证明效率最优温度与具体CPU部件相关,且常高于典型数据中心运行条件。来自Amazon和Equinix等商用云平台的测量显示,约一半高功率CPU运行温度比效率最优点低约10°C。通过实施ITD感知…

中文解读

研究问题:传统“更冷更好”假设在现代低压CPU上因ITD效应而失效,导致数据中心能效未达最优。方法线索:作者在商用Intel Xeon CPU上首次进行ITD实证表征,结合Amazon与Equinix平台实测数据,识别效率最优温度并提出ITD感知的CPU热分组方法。对AI数据中心/算电协同的意义:该方法有助于在电网约束下提升服务器能效,减少不必要制冷能耗,支持可持续AI算力扩展。核验边界:分析仅基于论文提供的标题、作者、日期与摘要片段,未包含完整实验结果、具体数值或后续结论,需查阅全文核实分组策略细节。

参考文献

Jason Crop, Hayden Moore, Sudeep Pasricha. Revisiting "Cooler is Better": ITD-Aware Per-CPU Thermal Optimization for Sustainable Data Center Operation[J/OL]. (2026-06-10)[2026-06-12]. http://arxiv.org/abs/2606.11163v1.

Full text 中文海报
算电协同 论文图示
Research Article芯片与算力

Space-CIM: Enabling Compute-In-Memory Accelerators for Thermally-Constrained Space Platforms

Sohan Salahuddin Mugdho、Md. Shahedul Hasan、Cheng Wang

Published 2026-06-04 · arXiv · Credibility S

人工智能算力需求激增推动数据中心建设,引发能源与可持续性危机。太空轨道数据中心因太阳能丰富和发射成本下降成为潜在路径,但真空环境仅依赖辐射冷却,需大面积散热器,对标准液冷或气冷系统构成热管理挑战。本文研究太空热约束对配备高带宽内存的GPU及新兴存算一体加速器的影响,提出散热器在环协同设计方法,直接关联热约束与加速器架构。

Abstract, interpretation and reference

Abstract

人工智能算力需求激增推动数据中心建设,引发能源与可持续性危机。太空轨道数据中心因太阳能丰富和发射成本下降成为潜在路径,但真空环境仅依赖辐射冷却,需大面积散热器,对标准液冷或气冷系统构成热管理挑战。本文研究太空热约束对配备高带宽内存的GPU及新兴存算一体加速器的影响,提出散热器在环协同设计方法,直接关联热约束与加速器架构。

中文解读

研究问题:太空轨道数据中心面临真空无对流环境下的辐射冷却限制,标准GPU与HBM系统难以满足热约束。方法线索:针对GPU和高带宽内存及存算一体加速器,开发散热器在环协同设计方法,将热管理直接嵌入架构探索。对AI数据中心/液冷/算电协同的意义:为未来AI算力基础设施提供太空部署的可行路径,强调热约束驱动的硬件-散热联合优化思路。核验边界:仅基于给定标题、作者、发表日期与摘要片段,未包含完整方法细节、实验数据或最终结论,需查阅论文全文核实。

参考文献

Sohan Salahuddin Mugdho, Md. Shahedul Hasan, Cheng Wang. Space-CIM: Enabling Compute-In-Memory Accelerators for Thermally-Constrained Space Platforms[J/OL]. (2026-06-04)[2026-06-12]. http://arxiv.org/abs/2606.05741v1.

Full text 中文海报
芯片与算力 论文图示
Research Article算电协同

Peer-to-Peer Cloud Service Market for Data Centers Oriented to Computation-Electricity Coordination

Yugui Liu、Yibo Ding、Xudong Li、Jing Qu、Wenyi Zhang、Tong Qian、Wuyou Xiao、Zhengyang Hu

Published 2026-06-03 · arXiv · Credibility S

能源密集型数据中心已成为现代电力系统中大量且灵活的负载,凸显算电协同的迫切需求。利用工作负载时空灵活性是促进协同的有前景方法,但现有研究忽视地理分布式数据中心间计算资源共享的协作潜力,未能充分释放灵活性。本文提出双层算电协同框架,明确捕捉数据中心与电网双向交互。首先提出地理分布式数据中心的点对点云服务市场,支持双边交易以利用区域异质性如电价和冷却效率;其次嵌入节点边际电价反映网络拥塞与节点电价差异。

Abstract, interpretation and reference

Abstract

能源密集型数据中心已成为现代电力系统中大量且灵活的负载,凸显算电协同的迫切需求。利用工作负载时空灵活性是促进协同的有前景方法,但现有研究忽视地理分布式数据中心间计算资源共享的协作潜力,未能充分释放灵活性。本文提出双层算电协同框架,明确捕捉数据中心与电网双向交互。首先提出地理分布式数据中心的点对点云服务市场,支持双边交易以利用区域异质性如电价和冷却效率;其次嵌入节点边际电价反映网络拥塞与节点电价差异。

中文解读

研究问题聚焦能源密集数据中心作为灵活负载与电网协同不足,现有工作忽略地理分布式资源共享潜力。方法线索包括构建双层框架、设计点对点云服务市场实现双边交易,并嵌入节点边际电价捕捉拥塞与价格差异。对算电协同的意义在于利用区域电价与冷却效率异质性提升数据中心灵活性响应电网需求,核验边界限于材料提供的标题、作者、发表日期及摘要片段,未涉及具体性能数据或实验细节,需打开论文链接核验完整方法与结论。

参考文献

Yugui Liu, Yibo Ding, Xudong Li, 等. Peer-to-Peer Cloud Service Market for Data Centers Oriented to Computation-Electricity Coordination[J/OL]. (2026-06-03)[2026-06-12]. http://arxiv.org/abs/2606.04981v1.

Full text 中文海报
算电协同 论文图示
Research Article热管理与液冷

Maximizing Compute Capacity in AI Data Centers through Cooling, Energy Storage, and Computing Adaptation

Shaolei Ren、Mohammad A. Islam、Adam Wierman

Published 2026-05-30 · arXiv · Credibility S

人工智能部署日益受限于站点级电力容量,该容量需同时支持计算系统与非计算系统(主要是冷却)。尤其在非蒸发冷却系统中,冷却功率需求随夏季环境温度大幅上升,形成每天持续数小时的周期性高冷却功率时段。因此,在有限站点级电力预算下最大化计算容量成为重要的规划与运营挑战。基于峰值冷却功率保守配置计算系统,会在冷却功率低于峰值时(尤其凉爽月份)造成站点电力容量部分闲置;而基于低冷却功率激进配置,则可能在夏季炎热日导致总站点电力需求超过容量。本文提出Com…

Abstract, interpretation and reference

Abstract

人工智能部署日益受限于站点级电力容量,该容量需同时支持计算系统与非计算系统(主要是冷却)。尤其在非蒸发冷却系统中,冷却功率需求随夏季环境温度大幅上升,形成每天持续数小时的周期性高冷却功率时段。因此,在有限站点级电力预算下最大化计算容量成为重要的规划与运营挑战。基于峰值冷却功率保守配置计算系统,会在冷却功率低于峰值时(尤其凉爽月份)造成站点电力容量部分闲置;而基于低冷却功率激进配置,则可能在夏季炎热日导致总站点电力需求超过容量。本文提出Com…

中文解读

研究问题:AI数据中心站点级电力容量需同时支撑计算与冷却系统,夏季环境温度升高导致冷却功率周期性上升,造成算力配置的两难。方法线索:论文围绕站点电力预算约束,分析保守与激进两种计算系统容量配置策略的利弊,提出通过冷却、能量存储与计算适应相结合的方式进行规划与运行。对AI数据中心/液冷/算电协同的意义:有助于在有限电力预算下提升算力利用率,减少季节性电力闲置或超载风险,支持数据中心与电网的协同优化。核验边界:材料仅提供问题描述与策略分析,具体方法细节、实验结果与最终结论需打开论文链接核验。

参考文献

Shaolei Ren, Mohammad A. Islam, Adam Wierman. Maximizing Compute Capacity in AI Data Centers through Cooling, Energy Storage, and Computing Adaptation[J/OL]. (2026-05-30)[2026-06-12]. http://arxiv.org/abs/2606.00457v1.

Full text 中文海报
热管理与液冷 论文图示
Research Article算电协同

Grid Capacity Expansion under Data Centers and Electrified Manufacturing Large Loads

Jiyong Lee、Melody Agustin、Joanne Langsdorf、Erhan Kutanoglu、Michael Baldea、Ilias Mitrai

Published 2026-05-28 · arXiv · Credibility S

本文研究新兴数据中心与电气化制造大负荷下的电网扩展问题。作者构建多周期电网容量扩展模型,确定发电、储能与输电容量的最优投资方案,同时考虑小时级电力调度,以满足电力需求并最小化规划与运行总成本。文中还提出针对大负荷需求空间分布的新建模方法。该模型应用于模拟ERCOT系统特征的电网,在七年规划期内分析数据中心与电气化炼油负荷情景,这些负荷分别占规划末期年用电量的17.5%与4.7%。

Abstract, interpretation and reference

Abstract

本文研究新兴数据中心与电气化制造大负荷下的电网扩展问题。作者构建多周期电网容量扩展模型,确定发电、储能与输电容量的最优投资方案,同时考虑小时级电力调度,以满足电力需求并最小化规划与运行总成本。文中还提出针对大负荷需求空间分布的新建模方法。该模型应用于模拟ERCOT系统特征的电网,在七年规划期内分析数据中心与电气化炼油负荷情景,这些负荷分别占规划末期年用电量的17.5%与4.7%。

中文解读

研究问题:数据中心与电气化制造大负荷快速增长对电网容量提出新挑战。方法线索:采用多周期优化模型,联合考虑发电、储能、输电投资与小时级调度,并引入大负荷需求空间分布新方法。对AI数据中心/液冷/算电协同的意义:为算电协同场景下的电网长期规划提供建模框架,支持数据中心负荷接入时的投资决策与成本控制。核验边界:结果基于合成电网与给定负荷比例,实际应用需核验ERCOT系统特征与模型假设的匹配度。

参考文献

Jiyong Lee, Melody Agustin, Joanne Langsdorf, 等. Grid Capacity Expansion under Data Centers and Electrified Manufacturing Large Loads[J/OL]. (2026-05-28)[2026-06-12]. http://arxiv.org/abs/2605.29053v2.

Full text 中文海报
算电协同 论文图示
Research Article算电协同

GridPilot: Real-Time Grid-Responsive Control for AI Supercomputers

Denisa-Andreea Constantinescu、David Atienza

Published 2026-05-26 · arXiv · Credibility S

全球数据中心电力需求增速超过电网供应,系统运营商需要大型灵活负载在数秒内调整功率以吸收风光发电波动。对于多兆瓦AI/HPC设施,核心问题是软件栈如何将电网请求快速转化为设施电表上的GPU功率实际变化。GridPilot提出三层预测控制器,跨毫秒、秒和小时尺度运行,并配备确定性安全岛旁路实现快速响应。在三GPU NVIDIA V100测试平台上,GridPilot测得端到端触发到目标响应为97.2 ms,比北欧快速频率储备700 ms要求快6.9倍,同时纳入瞬时PUE校正以匹配调度承诺。

Abstract, interpretation and reference

Abstract

全球数据中心电力需求增速超过电网供应,系统运营商需要大型灵活负载在数秒内调整功率以吸收风光发电波动。对于多兆瓦AI/HPC设施,核心问题是软件栈如何将电网请求快速转化为设施电表上的GPU功率实际变化。GridPilot提出三层预测控制器,跨毫秒、秒和小时尺度运行,并配备确定性安全岛旁路实现快速响应。在三GPU NVIDIA V100测试平台上,GridPilot测得端到端触发到目标响应为97.2 ms,比北欧快速频率储备700 ms要求快6.9倍,同时纳入瞬时PUE校正以匹配调度承诺。

中文解读

研究问题:多兆瓦AI/HPC设施软件栈能否在电网请求下快速改变GPU功率以满足秒级灵活性要求。方法线索:GridPilot采用三层预测控制器分别覆盖毫秒、秒、小时尺度,并设置确定性安全岛旁路。对AI数据中心/算电协同的意义:为数据中心提供可测量的电网响应能力,支持与可变可再生能源的实时协同。核验边界:实验仅在三GPU NVIDIA V100测试平台完成,响应时间为97.2 ms,是否适用于更大规模设施需进一步验证。

参考文献

Denisa-Andreea Constantinescu, David Atienza. GridPilot: Real-Time Grid-Responsive Control for AI Supercomputers[J/OL]. (2026-05-26)[2026-06-12]. http://arxiv.org/abs/2605.26384v1.

Full text 中文海报
算电协同 论文图示
Research ArticleAI 运维优化

Energy-Aware Computing in the Year 2026

Roblex Nana Tchakoute、Claude Tadonki

Published 2026-05-23 · arXiv · Credibility S

高性能计算已进入Exascale时代,生成式AI训练与应用能耗极高,成为系统瓶颈。该问题贯穿云-边-HPC全链路,从低功耗物联网微控制器到多兆瓦数据中心。除财务成本外,绿色计算还受气候变化、碳足迹及能源生产供应限制驱动,亟需规范信息通信技术活动。本文基于最新重要贡献,对能源高效计算进行全面概述,涵盖从硬件到系统层面的能耗优化路径。

Abstract, interpretation and reference

Abstract

高性能计算已进入Exascale时代,生成式AI训练与应用能耗极高,成为系统瓶颈。该问题贯穿云-边-HPC全链路,从低功耗物联网微控制器到多兆瓦数据中心。除财务成本外,绿色计算还受气候变化、碳足迹及能源生产供应限制驱动,亟需规范信息通信技术活动。本文基于最新重要贡献,对能源高效计算进行全面概述,涵盖从硬件到系统层面的能耗优化路径。

中文解读

研究问题:HPC进入Exascale时代后,生成AI等大规模应用导致能耗激增,成为云边HPC全链路瓶颈。方法线索:文章以综述形式梳理能源高效计算最新进展,覆盖从物联网微控制器到数据中心的能耗管理与绿色ICT规范。对AI数据中心/液冷/算电协同的意义:强调能耗作为核心约束,推动数据中心与电网协同及碳排放管控,为AI运维优化提供系统视角。核验边界:仅依据给定标题、摘要与主题,未包含具体实验数据或方法细节,需打开论文链接核验完整内容。

参考文献

Roblex Nana Tchakoute, Claude Tadonki. Energy-Aware Computing in the Year 2026[J/OL]. (2026-05-23)[2026-06-12]. http://arxiv.org/abs/2605.24569v1.

Full text 中文海报
AI 运维优化 论文图示
Research Article芯片与算力

ScaleAcross Explorer: Exploring Communication Optimization for Scale-Across AI Model Training

Minghao Li、Alicia Golden、Samuel Hsia、Michael Kuchnik、Adi Gangidi、Xu Zhang、Ashmitha Jeevaraj Shetty、Zachary DeVito

Published 2026-05-23 · arXiv · Credibility S

大规模语言模型训练的快速扩展需要将GPU资源分布至多个数据中心建筑与区域,这种范式被称为“跨规模”训练。随着基础设施扩张,系统设计空间日益复杂,涵盖新模型架构、硬件异构性和演变通信模式。基于Meta生产经验,论文指出在容纳数十万GPU的数个数据中心部署训练作业的复杂性。为加速大型设计空间探索并支持前沿模型高效训练,研究对并行放置、并行调度和网络层技术三个关键维度进行深入表征,进而提出ScaleAcross Explorer优化器,该优化器综合考虑各维度相互作用并整体优化跨规模训练。

Abstract, interpretation and reference

Abstract

大规模语言模型训练的快速扩展需要将GPU资源分布至多个数据中心建筑与区域,这种范式被称为“跨规模”训练。随着基础设施扩张,系统设计空间日益复杂,涵盖新模型架构、硬件异构性和演变通信模式。基于Meta生产经验,论文指出在容纳数十万GPU的数个数据中心部署训练作业的复杂性。为加速大型设计空间探索并支持前沿模型高效训练,研究对并行放置、并行调度和网络层技术三个关键维度进行深入表征,进而提出ScaleAcross Explorer优化器,该优化器综合考虑各维度相互作用并整体优化跨规模训练。

中文解读

研究问题:大规模AI模型训练需跨多个数据中心与区域分配GPU资源,通信优化面临复杂设计空间。方法线索:基于Meta生产经验,对并行放置、并行调度、网络层技术三维度进行表征,提出ScaleAcross Explorer优化器以整体考量维度间相互作用。意义:有助于AI数据中心在扩展至数十万GPU规模时的训练作业高效部署与通信管理。核验边界:仅依据所提供标题、作者、发表日期、摘要片段与主题,实验与仿真结果细节不完整,需核验完整论文。

参考文献

Minghao Li, Alicia Golden, Samuel Hsia, 等. ScaleAcross Explorer: Exploring Communication Optimization for Scale-Across AI Model Training[J/OL]. (2026-05-23)[2026-06-12]. http://arxiv.org/abs/2605.24326v1.

Full text 中文海报
芯片与算力 论文图示