某电力公司,一位AI开发者尝试把视觉智能体落地到工厂巡检场景。他把模型、算力、调度框架分别拉进来,精心拼装调试。可一到真实环境,长上下文推理让内存迅速膨胀,高并发任务又导致资源调度频繁卡顿,智能体决策频繁中断。几周反复调试,智能体还是无法运行,他几乎要放弃:不是缺技术,而是这些技术始终“说不到一块去”。
这样的故事正在开发者圈里反复上演。这是进入 Agent(智能体)时代,行业重心从单纯的技术突破转向深度应用落地必须跨越的门槛。
在Create 2026百度AI开发者大会上,百度创始人李彦宏首次提出AI时代的“度量衡”——日活智能体数(DAA)。他预测,未来全球日活智能体数可能超过100亿。要让这些智能体真正“活”起来、持续干活并交付结果,底层基础设施必须进化。
百度集团执行副总裁、百度智能云事业群总裁沈抖表示,百度智能云将升级成为面向大规模智能体应用的新全栈AI云,通过一整套端到端优化的算力基础设施,把每一瓦电力用到极致,最大化提升Token效能,支撑智能体的应用落地和效果提升。
解构需求变迁:要的不再是“零件”,而是“能跑的车”
这样的困境并非个例。随着Agent成为主流形态,开发者的需求正在发生质变。
过去几年,开发者使用AI云服务的心态相对简单。缺算力就采购IaaS,缺训练框架就调用PaaS,各取所需,像搭积木一样构建应用。这种模块化方式在简单场景下高效,但随着Agent成为主流形态,情况已经彻底改变。
Agent时代,开发者需要构建的是能自主决策、多步规划、具备长短期记忆和复杂任务拆解能力的完整应用。这些智能体不再是单一接口调用,而是要深入真实业务场景,处理长链路推理、高并发交互,并在生产环境中稳定运行、持续进化。仍以工业质检为例,我们需要它实时判断缺陷并联动处置,智慧能源场景需要它融合多源数据进行调度决策,具身智能则要求视觉、语言、动作的统一处理。
旧有供给方式难以匹配这种质变。开发者发现,自己花费大量时间处理的不是业务逻辑,而是底层不同层级之间的适配摩擦。从客户侧看,这一转变正在全行业发生:客户要的不再是弹性的计算资源,而是高活跃、可规模化、能产生真实业务价值的智能体应用。
诞生于这样的现实背景,“新全栈”回应的核心问题是——如何让供给侧能力跟上需求侧的进化节奏。
“拼图式”旧全栈的隐形技术债
行业里不少云厂商早已宣称具备全栈能力,但多数停留在“拼图式”阶段——芯片研发归芯片团队,模型训练归模型团队,云平台归云团队,各层之间边界清晰,主要通过标准接口对接。这种架构在简单任务中还能运转,一旦面对Agent的真实需求,就暴露出明显短板。
例如,长链推理中,上下文不断膨胀,KV Cache管理不当就会导致重复计算激增;高并发场景下,应用层的压力难以快速反馈到资源调度层,只能依赖人工干预。芯片的通用设计没有针对大模型推理特征进行深度优化,模型层也不知道上层智能体具体在承受怎样的负载。结果就是开发者不得不自己填补这些层级间的缝隙,积累了大量隐形技术债。
回顾历史,我们能看到类似轨迹。汽车发明时,精密协同的要求倒逼整个工业体系从粗放加工转向精细模组化;iPhone崛起则把原本分散的芯片、操作系统、硬件制造整合成统一生态,协同效率成为核心竞争力。今天AI云面临的正是同样的转折——终端产品(智能体)的复杂性,正在要求底层供给从“有没有”转向“如何协同”与“如何进化”。有全栈不等于能协同,这已成为拖Agent后腿、制约AI落地速度的关键瓶颈。
“过去,客户需要的是业务的弹性、可靠、降本增效,所以云服务更多是在提供计算、网络、存储资源。今天,客户需要的是高活跃、高价值、规模化的智能体应用来直接解决他们的业务问题,所以云服务也必须重新定义,成为一套能支撑智能体大规模运行、持续进化、安全可控的全栈AI基础设施。”沈抖说。
新全栈的核心机制:打破层级壁垒自我协调
面对这种质变,传统的全栈供给方式已经力不从心。百度智能云提出的"新全栈",正是为了回应这种需求。
“新全栈”的核心在于建立了各层之间实时的协同与反馈机制,让原本孤立的板块通过云服务粘合成一个能自我调节的有机体。
在底层,芯片与模型实现深度耦合。芯片不再是通用的计算元件,而是根据大模型推理特征进行针对性优化,实现算力的精准投放。向上看,当Agent在应用层遭遇高并发或复杂逻辑时,压力能迅速反馈至PaaS层的模型调度,并同步触发IaaS层的资源自动化扩容。这一过程不再依赖手动配置,而是像生物神经网络一样敏锐响应。
具体到Agent Infra层面,升级体现在多个关键点。Agent Harness提供了长上下文管理、记忆机制、Sub-agent调度和评估能力,还内置了Office办公、浏览器操作等丰富Skills,让开发者能快速搭建完成复杂长程任务的智能体。模型服务则遵循Agent-first理念重构,通过长上下文与Cache管理,大幅减少重复计算。在百度智能云上调用SOTA模型,推理速度比行业平均水平快25%,这意味着开发者可以更快完成推理,减少等待时间,提升开发效率。Agent Runtime进一步提供稳定、安全、可观测的生产环境,让智能体真正从Demo走向企业核心流程。
AI Infra端的优化同样针对性极强。KV Cache实现从HBM到主机内存再到SSD的分层池化,命中率达到90%以上,达到业界最高水平;通过AFD分离、PD分离和缓存调度等方案,长链路Agent推理性能相比主流开源社区引擎提升3倍。Agentic强化学习训练支持全异步模式,全模态框架支撑图像、视频、代码等多种任务,沙箱启动时间压缩到100毫秒以内,整体效率提升1倍以上。此外,吉瓦级AIDC采用网络向心布局、风液兼容架构,数据中心建设周期缩短约30%,让每一瓦电力发挥出更高的Token效能。
更重要的是,今天在百度智能云上调用文心、DeepSeek、GLM、MiniMax这些国产模型,用的底层算力就是国产昆仑芯。这意味着,中国企业跑智能体,不仅可以用上国产模型,也可以获得国产芯片提供的高性价比Token服务。
这些优化共同构成闭环:芯片定向加速模型,模型服务动态感知Agent需求,云平台实现全局资源调度。我们可以认为,新全栈不是多了什么产品,而是让各层开始真正“说话”,并共同朝着更好支持智能体的方向进化。这种系统供给方式,超越了传统分层交付的局限。
开发者价值落地:效率、门槛与持续迭代
对开发者而言,“新全栈”的价值最终体现在更低的门槛、更高的效率和持续的迭代能力上。
过去,搭建一个生产级智能体往往需要跨团队协作,耗费大量精力在基础设施调试上。现在,开发者可以依托百舸平台、一见视觉智能体等成熟工具链,专注业务场景设计。例如,义乌“前店后厂”模式,AI厂长能快速处理安全生产、质量管理等复杂场景;荣耀YOYO助手借助Agent Infra能力,实现游玩攻略生成、多语种交互等跨生态任务。
在央企,国家电网的巡检智能体通过大小模型融合,将准确率从五六成提升到80%以上,巡视时间从2.5小时压缩到45分钟。金融领域,招商银行超过50%的AI应用跑在昆仑芯P800上。智造领域,长安汽车借助智算中心完成端到端自动驾驶模型训练并走向量产,具身智能领域则支持VLA训练加速超过70%。新全栈真实解决了Agent落地“最后一公里”的问题。
这些真实落地案例背后,是“新全栈”在100多个场景中积累的实战经验。开发者置身其中,能直接复用这些经过验证的能力,形成“场景打磨技术—技术服务新场景”的正向循环。
本质上,这套系统是让技术适配业务,而非让业务迁就技术。由此开发者获得的是类似水电般的确定性生产力,却具备生物般的适应性和进化能力。
结语
在AI从技术演示迈向规模价值创造的关键阶段,百度智能云提出的“新全栈”,代表了供给侧的一次系统性升级。“新全栈”把原本分散的技术债收回到云端自我消化,让开发者站在更高的起点上释放Agent的能量,专注构建更加接近业务价值的智能应用。在AI催生诸多不确定性的时代,对开发者来说,这或许是真正值得投入的确定性机会。
而对于百度智能云而言,率先掌握了“芯片—云—模型—Agent”的协同飞轮,这或许是其在Agent时代的关键筹码。