智算中心论文专站

AIDC Research Papers

Liquid Cooling AI Data Center Power & Thermal Systems
Current Issue

Volume 2026 · Issue 06-13

按期刊卷期页方式整理本期论文。每条仅使用日报已列出的可追溯公开来源,不新增未经核验事实。

Research Article算电协同

Revisiting "Cooler is Better": ITD-Aware Per-CPU Thermal Optimization for Sustainable Data Center Operation

Jason Crop、Hayden Moore、Sudeep Pasricha

Published 2026-06-10 · arXiv · Credibility S

随着数据中心能耗接近电网约束,优化传统服务器基础设施对可持续增长至关重要。“更冷更好”的长期假设,即降低CPU温度可减少功耗,并不完全适用于现代低压CPU,因为逆温度依赖(ITD)会在低温时驱动更高供电电压。这形成非单调的性能每瓦曲线,效率在中间热节点达到峰值。本文首次在商用Intel Xeon CPU上实证表征ITD,表明效率最优温度为CPU特定,且常高于典型数据中心运行条件。来自Amazon和Equinix等商业云平台的测量显示,约一半高功率CPU运行温度比效率最优热节点低约10°C。通过实施ITD感知的CP…

Abstract, interpretation and reference

Abstract

随着数据中心能耗接近电网约束,优化传统服务器基础设施对可持续增长至关重要。“更冷更好”的长期假设,即降低CPU温度可减少功耗,并不完全适用于现代低压CPU,因为逆温度依赖(ITD)会在低温时驱动更高供电电压。这形成非单调的性能每瓦曲线,效率在中间热节点达到峰值。本文首次在商用Intel Xeon CPU上实证表征ITD,表明效率最优温度为CPU特定,且常高于典型数据中心运行条件。来自Amazon和Equinix等商业云平台的测量显示,约一半高功率CPU运行温度比效率最优热节点低约10°C。通过实施ITD感知的CP…

中文解读

研究问题:传统“更冷更好”假设在现代低压CPU上因ITD效应不再成立,导致数据中心能效未达最优。方法线索:基于生产Intel Xeon CPU的实证表征,结合Amazon与Equinix云平台测量数据,分析温度与效率的非单调关系,并提出ITD感知热分组方法。对AI数据中心/算电协同的意义:揭示约一半高功率CPU可通过适度提高运行温度提升效率,减少电网压力,支持可持续算电协同。核验边界:仅依据给定摘要中的ITD表征与平台测量,未涉及具体分组实现细节或额外实验结果。

参考文献

Jason Crop, Hayden Moore, Sudeep Pasricha. Revisiting "Cooler is Better": ITD-Aware Per-CPU Thermal Optimization for Sustainable Data Center Operation[J/OL]. (2026-06-10)[2026-06-13]. http://arxiv.org/abs/2606.11163v1.

Full text 中文海报
算电协同 论文图示
Research Article芯片与算力

Space-CIM: Enabling Compute-In-Memory Accelerators for Thermally-Constrained Space Platforms

Sohan Salahuddin Mugdho、Md. Shahedul Hasan、Cheng Wang

Published 2026-06-04 · arXiv · Credibility S

人工智能算力需求激增推动数据中心建设,引发能源与可持续性危机。太空丰富的太阳能与发射成本下降,使轨道数据中心成为AI算力扩展的潜在路径。真空环境虽利于冷却,但计算系统最终依赖辐射冷却,需大面积散热器,热管理限制对部署标准液冷/风冷计算机构成挑战。本文研究空间热约束对GPU(含HBM)及新兴存算一体(CIM)加速器的影响,开发散热器在环协同设计方法,直接关联热边界与架构选择。

Abstract, interpretation and reference

Abstract

人工智能算力需求激增推动数据中心建设,引发能源与可持续性危机。太空丰富的太阳能与发射成本下降,使轨道数据中心成为AI算力扩展的潜在路径。真空环境虽利于冷却,但计算系统最终依赖辐射冷却,需大面积散热器,热管理限制对部署标准液冷/风冷计算机构成挑战。本文研究空间热约束对GPU(含HBM)及新兴存算一体(CIM)加速器的影响,开发散热器在环协同设计方法,直接关联热边界与架构选择。

中文解读

研究问题:空间平台热约束限制标准计算系统部署,需探索适合轨道AI算力的新架构。方法线索:分析GPU与CIM在辐射冷却下的热影响,构建散热器在环协同设计流程,评估不同加速器在空间环境中的可行性。对AI数据中心/算电协同的意义:为未来轨道数据中心提供热-算协同设计思路,减轻地面电网负担。核验边界:仅使用摘要中提及的GPU、CIM及辐射冷却约束,未补充具体性能数据或实验平台细节。

参考文献

Sohan Salahuddin Mugdho, Md. Shahedul Hasan, Cheng Wang. Space-CIM: Enabling Compute-In-Memory Accelerators for Thermally-Constrained Space Platforms[J/OL]. (2026-06-04)[2026-06-13]. http://arxiv.org/abs/2606.05741v1.

Full text 中文海报
芯片与算力 论文图示
Research Article余热回收

Recasting AI Data Centers as Engines for Carbon Removal

暂无可靠最新数据

Published 2026-05-13 · arXiv · Credibility S

AI数据中心电力需求与CO2排放快速增长,同时产生持续低品位余热。本文评估该余热能否通过热泵升级驱动直接空气捕集(DAC),降低AI基础设施气候影响。开发热力集成DAC-AIDC系统,在美国多区域开展评估,考虑AIDC容量、服务器构成、当地气候、电价与电网碳强度。结果显示AIDC余热可显著改善净CO2去除并降低捕集平准化成本。在碳密集区域,集成可使DAC从净正转为净负。2030情景下,若GPU密集型AIDC与更清洁电网结合,部分州去除率超1,可抵消自身运营排放并提供额外碳去除。

Abstract, interpretation and reference

Abstract

AI数据中心电力需求与CO2排放快速增长,同时产生持续低品位余热。本文评估该余热能否通过热泵升级驱动直接空气捕集(DAC),降低AI基础设施气候影响。开发热力集成DAC-AIDC系统,在美国多区域开展评估,考虑AIDC容量、服务器构成、当地气候、电价与电网碳强度。结果显示AIDC余热可显著改善净CO2去除并降低捕集平准化成本。在碳密集区域,集成可使DAC从净正转为净负。2030情景下,若GPU密集型AIDC与更清洁电网结合,部分州去除率超1,可抵消自身运营排放并提供额外碳去除。

中文解读

研究问题:AI数据中心高排放与余热如何转化为碳去除资源。方法线索:构建热力集成DAC-AIDC系统,进行美国区域分辨评估,纳入容量、气候、电价与碳强度因素。对AI数据中心/算电协同的意义:展示余热回收可降低碳影响,支持算电协同下的可持续运营。核验边界:仅依据摘要中的系统评估与情景描述,未添加具体数值或额外结论。

参考文献

佚名. Recasting AI Data Centers as Engines for Carbon Removal[J/OL]. (2026-05-13)[2026-06-13]. http://arxiv.org/abs/2605.13114v1.

Full text 中文海报
余热回收 论文图示
Research Article算电协同

Power Grid Infrastructure for AI Data Centers

Amir Sajadi、Muhy Eddin Za'ter、Maria Vabson、Kyri Baker、Bri-Mathias Hodge

Published 2026-05-31 · arXiv · Credibility S

人工智能最新进展引发科技前沿竞相建设大型数据中心。本文探讨大型数据中心对电力电网规划与运行的影响。

Abstract, interpretation and reference

Abstract

人工智能最新进展引发科技前沿竞相建设大型数据中心。本文探讨大型数据中心对电力电网规划与运行的影响。

中文解读

研究问题:大型AI数据中心对电网规划与运行造成何种影响。方法线索:综述近期AI驱动的数据中心扩张及其电网交互。对AI数据中心/算电协同的意义:提供电网适应大规模算力需求的洞见,促进算电协同规划。核验边界:仅使用摘要中“规划与运行影响”的描述,未补充具体措施或数据。

参考文献

Amir Sajadi, Muhy Eddin Za'ter, Maria Vabson, 等. Power Grid Infrastructure for AI Data Centers[J/OL]. (2026-05-31)[2026-06-13]. http://arxiv.org/abs/2606.00941v1.

Full text 中文海报
算电协同 论文图示
Research Article芯片与算力

Provisioning to Runtime Optimization of a 100 MW-Scale AI Cluster

Ehsan K. Ardestani、Leonardo Piga、Jovan Stojkovic、Pavan Balaji、Mustafa Ozdal、Mikel Jimenez Fernandez、Mihaela Dimovska、Luka Tadic

Published 2026-05-23 · arXiv · Credibility S

AI数据中心电力供应已成为通向通用人工智能竞赛中的最大瓶颈,超越加速器可用性约束。本文首次描述超大规模AI数据中心端到端电力管理过程:从新一代加速器上市前6-12个月的早期电力规划,到大规模部署后的功率设置调优,再到面向演进工作负载的动态运行时功率管理。展示150MW数据中心托管83K GB200 GPU的详细功率测量,并分享构建该先进AI集群的洞见。

Abstract, interpretation and reference

Abstract

AI数据中心电力供应已成为通向通用人工智能竞赛中的最大瓶颈,超越加速器可用性约束。本文首次描述超大规模AI数据中心端到端电力管理过程:从新一代加速器上市前6-12个月的早期电力规划,到大规模部署后的功率设置调优,再到面向演进工作负载的动态运行时功率管理。展示150MW数据中心托管83K GB200 GPU的详细功率测量,并分享构建该先进AI集群的洞见。

中文解读

研究问题:AI数据中心电力供应瓶颈如何从规划延伸至运行时管理。方法线索:描述从早期规划、部署调优到动态运行时管理的全流程,并给出150MW集群实测数据。对AI数据中心/算电协同的意义:为超大规模AI集群电力管理提供实践参考,缓解电网压力。核验边界:仅依据摘要中的流程描述与集群规模,未添加具体测量数值或额外结论。

参考文献

Ehsan K. Ardestani, Leonardo Piga, Jovan Stojkovic, 等. Provisioning to Runtime Optimization of a 100 MW-Scale AI Cluster[J/OL]. (2026-05-23)[2026-06-13]. http://arxiv.org/abs/2605.24461v2.

Full text 中文海报
芯片与算力 论文图示
Research Article算电协同

GridPilot: Real-Time Grid-Responsive Control for AI Supercomputers

Denisa-Andreea Constantinescu、David Atienza

Published 2026-05-26 · arXiv · Credibility S

全球数据中心电力需求增速超过电网供应,系统运营商需要大型灵活负载在秒级调整功率以吸收风光波动。对于多MW级AI/HPC设施,关键问题是如何将电网请求快速转化为设施电表处的GPU功率实际变化。GridPilot三层预测控制器跨毫秒、秒和小时尺度运行,辅以确定性安全岛旁路实现快速响应。在三GPU NVIDIA V100测试平台上,端到端触发到目标响应达97.2ms,比北欧快速频率储备700ms要求快6.9倍,并融入瞬时PUE校正以确保调度承诺可实现。

Abstract, interpretation and reference

Abstract

全球数据中心电力需求增速超过电网供应,系统运营商需要大型灵活负载在秒级调整功率以吸收风光波动。对于多MW级AI/HPC设施,关键问题是如何将电网请求快速转化为设施电表处的GPU功率实际变化。GridPilot三层预测控制器跨毫秒、秒和小时尺度运行,辅以确定性安全岛旁路实现快速响应。在三GPU NVIDIA V100测试平台上,端到端触发到目标响应达97.2ms,比北欧快速频率储备700ms要求快6.9倍,并融入瞬时PUE校正以确保调度承诺可实现。

中文解读

研究问题:AI超级计算机如何在毫秒级实现电网请求到功率实际变化的快速响应。方法线索:开发三层预测控制器与安全岛旁路,在真实硬件上测量响应时间并校正PUE。对AI数据中心/算电协同的意义:展示AI设施可作为电网灵活资源,支持算电实时协同。核验边界:仅使用摘要中的响应时间与测试平台描述,未补充额外性能指标。

参考文献

Denisa-Andreea Constantinescu, David Atienza. GridPilot: Real-Time Grid-Responsive Control for AI Supercomputers[J/OL]. (2026-05-26)[2026-06-13]. http://arxiv.org/abs/2605.26384v1.

Full text 中文海报
算电协同 论文图示
Research Article芯片与算力

ScaleAcross Explorer: Exploring Communication Optimization for Scale-Across AI Model Training

Minghao Li、Alicia Golden、Samuel Hsia、Michael Kuchnik、Adi Gangidi、Xu Zhang、Ashmitha Jeevaraj Shetty、Zachary DeVito

Published 2026-05-23 · arXiv · Credibility S

大语言模型训练快速扩展需将GPU资源分布于多个数据中心建筑与区域,即“跨规模”训练。随着基础设施扩张,系统设计空间愈发复杂,涵盖新模型架构、硬件异构与演进通信模式。基于Meta生产经验,刻画跨数个容纳数十万GPU数据中心的部署复杂性。为加速探索并支持前沿模型高效训练,深入表征并行放置、并行调度与网络层技术三维设计空间,提出ScaleAcross Explorer优化器,整体优化跨规模训练。

Abstract, interpretation and reference

Abstract

大语言模型训练快速扩展需将GPU资源分布于多个数据中心建筑与区域,即“跨规模”训练。随着基础设施扩张,系统设计空间愈发复杂,涵盖新模型架构、硬件异构与演进通信模式。基于Meta生产经验,刻画跨数个容纳数十万GPU数据中心的部署复杂性。为加速探索并支持前沿模型高效训练,深入表征并行放置、并行调度与网络层技术三维设计空间,提出ScaleAcross Explorer优化器,整体优化跨规模训练。

中文解读

研究问题:跨多数据中心的大规模AI训练面临复杂通信与设计挑战。方法线索:基于生产经验表征三维设计空间,开发整体优化器探索最优配置。对AI数据中心/算电协同的意义:提升跨区域算力利用效率,间接支持算电资源协同调度。核验边界:仅依据摘要中的设计维度与优化器描述,未添加实验结果。

参考文献

Minghao Li, Alicia Golden, Samuel Hsia, 等. ScaleAcross Explorer: Exploring Communication Optimization for Scale-Across AI Model Training[J/OL]. (2026-05-23)[2026-06-13]. http://arxiv.org/abs/2605.24326v1.

Full text 中文海报
芯片与算力 论文图示
Research Article算电协同

Towards Resource-Efficient LLMs: End-to-End Energy Accounting of Distillation Pipelines

Katherine Lambert、Sasha Luccioni

Published 2026-05-13 · Semantic Scholar · Credibility S

大语言模型部署激增GPU需求与数据中心规模,引发电力使用、电网压力与AI工作负载影响担忧。蒸馏常被视为获得更高效模型的有效路径,但现有主张 rarely 计入完整端到端能耗与资源成本,包括教师端数据生成、logit缓存与评估等关键工作负载。本文提出综合能耗核算框架,通过逐阶段GPU设备功耗跟踪测量蒸馏流水线完整计算成本,并构建能耗-质量帕累托前沿。

Abstract, interpretation and reference

Abstract

大语言模型部署激增GPU需求与数据中心规模,引发电力使用、电网压力与AI工作负载影响担忧。蒸馏常被视为获得更高效模型的有效路径,但现有主张 rarely 计入完整端到端能耗与资源成本,包括教师端数据生成、logit缓存与评估等关键工作负载。本文提出综合能耗核算框架,通过逐阶段GPU设备功耗跟踪测量蒸馏流水线完整计算成本,并构建能耗-质量帕累托前沿。

中文解读

研究问题:LLM蒸馏的端到端能耗是否被低估,需完整核算。方法线索:建立逐阶段GPU功耗跟踪框架,分离并记录经典logit蒸馏与合成数据微调的能耗。对AI数据中心/算电协同的意义:揭示蒸馏全流程能耗,支持更准确的算电影响评估。核验边界:仅使用摘要中的框架描述与两种方法,未补充具体能耗数值或前沿结果。

参考文献

Katherine Lambert, Sasha Luccioni. Towards Resource-Efficient LLMs: End-to-End Energy Accounting of Distillation Pipelines[J/OL]. (2026-05-13)[2026-06-13]. https://www.semanticscholar.org/paper/bccbd33ad04f7d4dbcd69559e7bc9715db08d0c5.

Full text 中文海报
算电协同 论文图示