AI基础设施的快速扩张正与电力、冷却及电网容量等现实条件产生激烈碰撞。随着运营商部署规模更大的AI集群并不断提升机架密度,关于工作负载运行位置和基础设施设计方式的既有假设正在被打破。
在这场深刻变革中,电力并网时间表、配电设备和设施冷却系统已成为规划中的关键变量。与此同时,新建数据中心的用水问题也受到越来越多的社区关注。企业还必须证明,AI投资能够创造真实的商业价值,而不仅仅是消耗更多的资源。
HPE可持续转型首席技术专家Andrew DesRochers指出,这些压力正在重塑客户行为。他在HPE Discover 2026上表示,随着AI从实验阶段迈向生产部署,对话重心已从可持续性议题转向运营效率,能源可用性、冷却基础设施、资源利用率和电力约束正日益主导IT决策。
以下是Data Center Knowledge与DesRochers的对话,内容经过适当编辑以提升清晰度。
客户对话的最大转变
Data Center Knowledge:过去两年,客户对话最大的变化是什么?
Andrew DesRochers:最大的变化之一,是IT运营商开始意识到能源效率在自身运营中的重要性。过去,许多IT团队默认能源随时可用,由设施团队负责电网接入和用电需求。
如今,随着能源成本上升以及部分地区电力供应受限,能源已成为基础设施规划中的核心因素。客户开始追问:如何降低能耗,同时从有限的电力中获得最大的IT产出?
从"可持续性"到"执行力"的转变
Data Center Knowledge:对话是否已从可持续性转向运营层面?
Andrew DesRochers:确实如此。几年前,客户挂在嘴边的是"可持续性",而现在,"落地执行"才是焦点。我们有一个客户告诉我们,他们已经好几年没有听到"可持续性"这个词了。
问题在于,效率依然至关重要。如果AI工作负载消耗过多能源或资源,企业将难以证明其投资回报为正。效率必须嵌入AI战略之中,因为它与商业结果直接挂钩。
电力、冷却与电力约束哪个先到来
Data Center Knowledge:客户最先遇到的是电力约束、冷却约束还是电力约束?
Andrew DesRochers:这取决于地区。总体来看,数据中心资源消耗正受到越来越严格的审视。目前能源仍是首要问题,但用水正成为下一个重大议题。在部分地区,我们已经看到社区反弹,以及对新建数据中心用水量的高度关注。
一个挑战在于,帮助人们理解资源究竟消耗在哪里。例如,直接液冷通常被认为是用水的主要来源,但这类系统通常是封闭式的。运营商需要从更宏观的视角审视整个系统,包括设施运营及数据中心围墙之外的影响。
电力并网时间表如何影响基础设施决策
Data Center Knowledge:电力并网时间表在多大程度上影响着基础设施决策?
Andrew DesRochers:影响越来越大。客户越来越关注在电力时间表和基础设施可用性范围内,能够实际部署多少规模。我们甚至看到关于高压直流等技术的讨论浮现,企业正在评估一切可能的方案以满足未来用电需求。
一个值得关注的趋势是,配电设备和配套电气基础设施正成为部署规划中的重要影响因素,相关时间表也在迅速变化。
AI驱动的用电需求预测是否准确
Data Center Knowledge:关于AI带来的用电需求,有哪些预判被证明是错误的?
Andrew DesRochers:区分大规模AI训练设施和典型企业AI部署非常重要。
大多数企业客户并不从头训练基础模型,他们部署的是推理工作负载,并尽可能使用规模较小或经过蒸馏的模型。这类工作负载与主导公众讨论的大型训练集群相比,基础设施需求截然不同。
不应将所有AI工作负载一视同仁。训练环境与企业推理环境在电力和效率特征上存在显著差异。
部署后的意外发现
Data Center Knowledge:部署后,客户最常感到意外的是什么?
Andrew DesRochers:一个反复出现的主题是度量和分析的重要性。部署最新硬件的组织需要对电力消耗、冷却需求和整体效率有清晰的可见性。没有这些数据,运营优化几乎无从谈起。
GPU效率与利用率
Data Center Knowledge:GPU效率和利用率持续是热门话题,您观察到了什么?
Andrew DesRochers:利用率至关重要。我们在内部项目中也有切身体会。我们发现,某些系统以性能模式运行,但这对实际工作负载而言完全没有必要。仅仅切换到更节能的运行模式,就在不影响结果的情况下显著降低了能耗。
结论很直接:组织必须确保从所部署的基础设施中获取最大价值。效率始于对系统实际使用方式的深入理解。
冷却挑战是否被低估
Data Center Knowledge:运营商是否低估了冷却方面的挑战?
Andrew DesRochers:很多企业正在从设施层面重新审视冷却基础设施。客户越来越认识到,冷却效率不仅仅关乎服务器本身,还涉及建筑、设施系统以及整体协同运作。这创造了超越IT设备本身、在更大范围内降低能耗的机会。
机架密度的变化趋势
Data Center Knowledge:哪些机架密度已足够普遍,不再是特殊案例?
Andrew DesRochers:行业平均水平持续上移。
讨论的焦点越来越集中在:液冷在何时变得不可或缺?尽管很多企业仍希望延长风冷基础设施的使用寿命,但更高密度的部署正在持续推动运营商转向液冷方案。
值得注意的是,冷却需求并不局限于计算。网络和存储也日益成为这一讨论的组成部分。
水资源可用性是否成为瓶颈
Data Center Knowledge:水资源可用性正在成为制约因素吗?
Andrew DesRochers:用水消耗确实受到了更多审视。与此同时,一些企业开始对工作负载的运行地点变得更加灵活。在某些AI应用场景中,用户愿意接受略高的延迟,以换取将工作负载迁移至气候更凉爽或设施效率更高的地区的机会。
这为重新思考选址策略和资源优化提供了新的空间。
用水担忧如何改变选址策略
Data Center Knowledge:客户是否因用水问题调整了选址策略?
Andrew DesRochers:水资源正成为一项更重要的考量,尤其是在资源已经紧张的地区。
我们也看到市场对无水冷却技术的兴趣持续增长。过去,这类方案溢价显著,但经济性已大幅改善。随着社区和监管机构对用水消耗的关注日益增加,这些替代方案正变得愈发具有吸引力。
AI基础设施运营行为的转变
Data Center Knowledge:AI基础设施运营商的运营行为中,变化最大的是什么?
Andrew DesRochers:客户变得更加审慎。早期,很多企业追求生成式AI只是因为"别人都在做"。如今,企业开始冷静下来,追问AI是否真的适合解决特定问题,以及哪种AI部署方式最符合其业务目标。
我们看到,对实际应用场景和可量化结果的关注显著增强。
过去几年的决策遗憾
Data Center Knowledge:客户是否对过去几年的某些设计决策感到遗憾?
Andrew DesRochers:我不会用"遗憾"来形容。许多企业通过AI实验积累了宝贵的经验教训。现在他们正在重新评估战略,聚焦落地推广,并认真思考效率如何支撑商业价值。
一个挑战是确保员工理解AI如何融入他们的工作。落地推广最终在很大程度上决定了企业能否从AI投资中获得实质性回报。
两年后的展望
Data Center Knowledge:两年后再回顾这场对话,什么将会改变?
Andrew DesRochers:我希望效率能成为企业的默认做法。我期待能源、冷却和资源效率成为基础设施设计的标准考量,而不是需要反复普及的议题。还有很多工作要做,但这是我们希望行业达到的状态。
效率应当成为企业设计、部署和运营基础设施的常规组成部分。
Q&A
Q1:Andrew DesRochers认为AI基础设施的最大挑战是什么?
A:Andrew DesRochers认为能源效率是当前最核心的挑战。随着能源成本上升和部分地区电力供应受限,企业必须将能源规划纳入基础设施决策。此外,冷却系统的整体效率(不仅限于服务器层面)以及电力并网时间表也正成为越来越关键的制约因素。他强调,效率必须嵌入AI战略,因为它与最终的商业回报直接挂钩。
Q2:企业AI部署和大规模AI训练在基础设施需求上有什么区别?
A:两者存在显著差异。大规模AI训练设施需要消耗海量电力,通常是公众讨论的焦点。而大多数企业并不从头训练基础模型,他们主要部署推理工作负载,并尽量采用规模较小或经过蒸馏的模型。这类工作负载的电力需求和效率特征与训练环境截然不同,不应被一视同仁地对待。
Q3:无水冷却技术为何开始受到数据中心运营商的关注?
A:主要原因有两点:一是社区和监管机构对数据中心用水消耗的审视日益严格,部分地区甚至出现社区反弹;二是无水冷却技术的经济性已大幅改善,过去高昂的成本溢价已显著下降。此外,部分AI应用场景中用户愿意接受略高的延迟,使得将工作负载迁移至更凉爽或节水地区成为可行选项,进一步推动了相关技术的采用。