智算中心论文观察｜2026-06-13

Current Issue

Volume 2026 · Issue 06-13

按期刊卷期页方式整理本期论文。每条仅使用日报已列出的可追溯公开来源，不新增未经核验事实。

Research Article算电协同

Revisiting "Cooler is Better": ITD-Aware Per-CPU Thermal Optimization for Sustainable Data Center Operation

Jason Crop、Hayden Moore、Sudeep Pasricha

Published 2026-06-10 · arXiv · Credibility S

随着数据中心能耗接近电网约束，优化传统服务器基础设施对可持续增长至关重要。“更冷更好”的长期假设，即降低CPU温度可减少功耗，并不完全适用于现代低压CPU，因为逆温度依赖（ITD）会在低温时驱动更高供电电压。这形成非单调的性能每瓦曲线，效率在中间热节点达到峰值。本文首次在商用Intel Xeon CPU上实证表征ITD，表明效率最优温度为CPU特定，且常高于典型数据中心运行条件。来自Amazon和Equinix等商业云平台的测量显示，约一半高功率CPU运行温度比效率最优热节点低约10°C。通过实施ITD感知的CP…

Abstract, interpretation and reference

Abstract

中文解读

研究问题：传统“更冷更好”假设在现代低压CPU上因ITD效应不再成立，导致数据中心能效未达最优。方法线索：基于生产Intel Xeon CPU的实证表征，结合Amazon与Equinix云平台测量数据，分析温度与效率的非单调关系，并提出ITD感知热分组方法。对AI数据中心/算电协同的意义：揭示约一半高功率CPU可通过适度提高运行温度提升效率，减少电网压力，支持可持续算电协同。核验边界：仅依据给定摘要中的ITD表征与平台测量，未涉及具体分组实现细节或额外实验结果。

参考文献

Jason Crop, Hayden Moore, Sudeep Pasricha. Revisiting "Cooler is Better": ITD-Aware Per-CPU Thermal Optimization for Sustainable Data Center Operation[J/OL]. (2026-06-10)[2026-06-13]. http://arxiv.org/abs/2606.11163v1.

Full text 中文海报

Research Article芯片与算力

Space-CIM: Enabling Compute-In-Memory Accelerators for Thermally-Constrained Space Platforms

Sohan Salahuddin Mugdho、Md. Shahedul Hasan、Cheng Wang

Published 2026-06-04 · arXiv · Credibility S

人工智能算力需求激增推动数据中心建设，引发能源与可持续性危机。太空丰富的太阳能与发射成本下降，使轨道数据中心成为AI算力扩展的潜在路径。真空环境虽利于冷却，但计算系统最终依赖辐射冷却，需大面积散热器，热管理限制对部署标准液冷/风冷计算机构成挑战。本文研究空间热约束对GPU（含HBM）及新兴存算一体（CIM）加速器的影响，开发散热器在环协同设计方法，直接关联热边界与架构选择。

Abstract, interpretation and reference

Abstract

中文解读

研究问题：空间平台热约束限制标准计算系统部署，需探索适合轨道AI算力的新架构。方法线索：分析GPU与CIM在辐射冷却下的热影响，构建散热器在环协同设计流程，评估不同加速器在空间环境中的可行性。对AI数据中心/算电协同的意义：为未来轨道数据中心提供热-算协同设计思路，减轻地面电网负担。核验边界：仅使用摘要中提及的GPU、CIM及辐射冷却约束，未补充具体性能数据或实验平台细节。

参考文献

Sohan Salahuddin Mugdho, Md. Shahedul Hasan, Cheng Wang. Space-CIM: Enabling Compute-In-Memory Accelerators for Thermally-Constrained Space Platforms[J/OL]. (2026-06-04)[2026-06-13]. http://arxiv.org/abs/2606.05741v1.

Full text 中文海报

Research Article余热回收

Recasting AI Data Centers as Engines for Carbon Removal

暂无可靠最新数据

Published 2026-05-13 · arXiv · Credibility S

AI数据中心电力需求与CO2排放快速增长，同时产生持续低品位余热。本文评估该余热能否通过热泵升级驱动直接空气捕集（DAC），降低AI基础设施气候影响。开发热力集成DAC-AIDC系统，在美国多区域开展评估，考虑AIDC容量、服务器构成、当地气候、电价与电网碳强度。结果显示AIDC余热可显著改善净CO2去除并降低捕集平准化成本。在碳密集区域，集成可使DAC从净正转为净负。2030情景下，若GPU密集型AIDC与更清洁电网结合，部分州去除率超1，可抵消自身运营排放并提供额外碳去除。

Abstract, interpretation and reference

Abstract

中文解读

研究问题：AI数据中心高排放与余热如何转化为碳去除资源。方法线索：构建热力集成DAC-AIDC系统，进行美国区域分辨评估，纳入容量、气候、电价与碳强度因素。对AI数据中心/算电协同的意义：展示余热回收可降低碳影响，支持算电协同下的可持续运营。核验边界：仅依据摘要中的系统评估与情景描述，未添加具体数值或额外结论。

参考文献

佚名. Recasting AI Data Centers as Engines for Carbon Removal[J/OL]. (2026-05-13)[2026-06-13]. http://arxiv.org/abs/2605.13114v1.

Full text 中文海报

Research Article算电协同

Power Grid Infrastructure for AI Data Centers

Amir Sajadi、Muhy Eddin Za'ter、Maria Vabson、Kyri Baker、Bri-Mathias Hodge

Published 2026-05-31 · arXiv · Credibility S

人工智能最新进展引发科技前沿竞相建设大型数据中心。本文探讨大型数据中心对电力电网规划与运行的影响。

Abstract, interpretation and reference

Abstract

人工智能最新进展引发科技前沿竞相建设大型数据中心。本文探讨大型数据中心对电力电网规划与运行的影响。

中文解读

研究问题：大型AI数据中心对电网规划与运行造成何种影响。方法线索：综述近期AI驱动的数据中心扩张及其电网交互。对AI数据中心/算电协同的意义：提供电网适应大规模算力需求的洞见，促进算电协同规划。核验边界：仅使用摘要中“规划与运行影响”的描述，未补充具体措施或数据。

参考文献

Amir Sajadi, Muhy Eddin Za'ter, Maria Vabson, 等. Power Grid Infrastructure for AI Data Centers[J/OL]. (2026-05-31)[2026-06-13]. http://arxiv.org/abs/2606.00941v1.

Full text 中文海报

Research Article芯片与算力

Provisioning to Runtime Optimization of a 100 MW-Scale AI Cluster

Ehsan K. Ardestani、Leonardo Piga、Jovan Stojkovic、Pavan Balaji、Mustafa Ozdal、Mikel Jimenez Fernandez、Mihaela Dimovska、Luka Tadic

Published 2026-05-23 · arXiv · Credibility S

AI数据中心电力供应已成为通向通用人工智能竞赛中的最大瓶颈，超越加速器可用性约束。本文首次描述超大规模AI数据中心端到端电力管理过程：从新一代加速器上市前6-12个月的早期电力规划，到大规模部署后的功率设置调优，再到面向演进工作负载的动态运行时功率管理。展示150MW数据中心托管83K GB200 GPU的详细功率测量，并分享构建该先进AI集群的洞见。

Abstract, interpretation and reference

Abstract

中文解读

研究问题：AI数据中心电力供应瓶颈如何从规划延伸至运行时管理。方法线索：描述从早期规划、部署调优到动态运行时管理的全流程，并给出150MW集群实测数据。对AI数据中心/算电协同的意义：为超大规模AI集群电力管理提供实践参考，缓解电网压力。核验边界：仅依据摘要中的流程描述与集群规模，未添加具体测量数值或额外结论。

参考文献

Ehsan K. Ardestani, Leonardo Piga, Jovan Stojkovic, 等. Provisioning to Runtime Optimization of a 100 MW-Scale AI Cluster[J/OL]. (2026-05-23)[2026-06-13]. http://arxiv.org/abs/2605.24461v2.

Full text 中文海报

Research Article算电协同

GridPilot: Real-Time Grid-Responsive Control for AI Supercomputers

Denisa-Andreea Constantinescu、David Atienza

Published 2026-05-26 · arXiv · Credibility S

全球数据中心电力需求增速超过电网供应，系统运营商需要大型灵活负载在秒级调整功率以吸收风光波动。对于多MW级AI/HPC设施，关键问题是如何将电网请求快速转化为设施电表处的GPU功率实际变化。GridPilot三层预测控制器跨毫秒、秒和小时尺度运行，辅以确定性安全岛旁路实现快速响应。在三GPU NVIDIA V100测试平台上，端到端触发到目标响应达97.2ms，比北欧快速频率储备700ms要求快6.9倍，并融入瞬时PUE校正以确保调度承诺可实现。

Abstract, interpretation and reference

Abstract

中文解读

研究问题：AI超级计算机如何在毫秒级实现电网请求到功率实际变化的快速响应。方法线索：开发三层预测控制器与安全岛旁路，在真实硬件上测量响应时间并校正PUE。对AI数据中心/算电协同的意义：展示AI设施可作为电网灵活资源，支持算电实时协同。核验边界：仅使用摘要中的响应时间与测试平台描述，未补充额外性能指标。

参考文献

Denisa-Andreea Constantinescu, David Atienza. GridPilot: Real-Time Grid-Responsive Control for AI Supercomputers[J/OL]. (2026-05-26)[2026-06-13]. http://arxiv.org/abs/2605.26384v1.

Full text 中文海报

Research Article芯片与算力

ScaleAcross Explorer: Exploring Communication Optimization for Scale-Across AI Model Training

Minghao Li、Alicia Golden、Samuel Hsia、Michael Kuchnik、Adi Gangidi、Xu Zhang、Ashmitha Jeevaraj Shetty、Zachary DeVito

Published 2026-05-23 · arXiv · Credibility S

大语言模型训练快速扩展需将GPU资源分布于多个数据中心建筑与区域，即“跨规模”训练。随着基础设施扩张，系统设计空间愈发复杂，涵盖新模型架构、硬件异构与演进通信模式。基于Meta生产经验，刻画跨数个容纳数十万GPU数据中心的部署复杂性。为加速探索并支持前沿模型高效训练，深入表征并行放置、并行调度与网络层技术三维设计空间，提出ScaleAcross Explorer优化器，整体优化跨规模训练。

Abstract, interpretation and reference

Abstract

中文解读

研究问题：跨多数据中心的大规模AI训练面临复杂通信与设计挑战。方法线索：基于生产经验表征三维设计空间，开发整体优化器探索最优配置。对AI数据中心/算电协同的意义：提升跨区域算力利用效率，间接支持算电资源协同调度。核验边界：仅依据摘要中的设计维度与优化器描述，未添加实验结果。

参考文献

Minghao Li, Alicia Golden, Samuel Hsia, 等. ScaleAcross Explorer: Exploring Communication Optimization for Scale-Across AI Model Training[J/OL]. (2026-05-23)[2026-06-13]. http://arxiv.org/abs/2605.24326v1.

Full text 中文海报

Research Article算电协同

Towards Resource-Efficient LLMs: End-to-End Energy Accounting of Distillation Pipelines

Katherine Lambert、Sasha Luccioni

Published 2026-05-13 · Semantic Scholar · Credibility S

大语言模型部署激增GPU需求与数据中心规模，引发电力使用、电网压力与AI工作负载影响担忧。蒸馏常被视为获得更高效模型的有效路径，但现有主张 rarely 计入完整端到端能耗与资源成本，包括教师端数据生成、logit缓存与评估等关键工作负载。本文提出综合能耗核算框架，通过逐阶段GPU设备功耗跟踪测量蒸馏流水线完整计算成本，并构建能耗-质量帕累托前沿。

Abstract, interpretation and reference

Abstract

中文解读

研究问题：LLM蒸馏的端到端能耗是否被低估，需完整核算。方法线索：建立逐阶段GPU功耗跟踪框架，分离并记录经典logit蒸馏与合成数据微调的能耗。对AI数据中心/算电协同的意义：揭示蒸馏全流程能耗，支持更准确的算电影响评估。核验边界：仅使用摘要中的框架描述与两种方法，未补充具体能耗数值或前沿结果。

参考文献

Katherine Lambert, Sasha Luccioni. Towards Resource-Efficient LLMs: End-to-End Energy Accounting of Distillation Pipelines[J/OL]. (2026-05-13)[2026-06-13]. https://www.semanticscholar.org/paper/bccbd33ad04f7d4dbcd69559e7bc9715db08d0c5.

Full text 中文海报

智算中心论文专站

Abstract

中文解读

参考文献

Abstract

中文解读

参考文献

Abstract

中文解读

参考文献

Abstract

中文解读

参考文献

Abstract

中文解读

参考文献

Abstract

中文解读

参考文献

Abstract

中文解读

参考文献

Abstract

中文解读

参考文献