

新浪科技讯 5月21日上昼音尘,智谱本日通知落地部署了一项径直影响大模子推理效力的架构转换ZCube:线上Infra实测数据标明,在同等GPU建树下,将汇注带宽从200Gbps晋升至400Gbps,推理总浑沌晋升约10%,首响时延下落19%,这一规则跟着推理限度扩大会越来越显贵。
通过将ZCube干预在千卡级GLM-5.1的一个线上推理集群中,在GPU型号、软件栈、业务代码沿路不变的前提下,仅升级汇注架构,其与传统ROFT架构的对比GPU平均推理浑沌晋升15%以上,TTFT P99尾时延下落40.6%。
2026在线买世界杯中国区平台这意味着,不异的硬件干预下,世界杯开云智谱GLM大模子目下每秒能多反应15%的API央求。关于工作上百万建立者的大模子API平台而言,这径直对应更高的并发上限、更低的列队蔓延,以及在流量峰值下更踏实的用户体验。
老本端的变化不异显然,ZCube 架构所需的交换机和光模块比原有决议少三分之一。限度越大,这个差值越可不雅。
更重要的是,这项升级的边缘老本接近于零:GPU 不换,工作器不换,软件代码不改,纯正是组网架构的替换。这意味着智谱已有的算力金钱在同等干预下开释了更高的产出,相当于存量金钱的效力重估。
据悉,ZCube本领被外洋顶会ACM SIGCOMM 2025评价为“显贵改变总共这个词行业对汇注的领略神气”,这次在智谱的落地引申是ZCube架构初度在真确大限度推理集群中完成坐褥考证。(文猛)
海量资讯、精确解读,尽在新浪财经APP
连累剪辑:江钰涵 开云2026世界杯中国官网