开云体育 CVPR 2026 四篇论文透视:大厂怎么靠「算法瘦身」起义算力加价?


2026 年,大厂们不再比谁的 GPU 多,而是比谁的算法更机灵。
作家丨陈淑瑜
剪辑丨岑 峰
一个在 2026 年越来越难以躲闪的问题是:要是 H100 全面断供、电费账单直线飙升、历练一次大模子的本钱足以买下一家创业公司,大模子的故事还讲得下去吗?
也许顶级学术会议的论文能给寰球一个新的启发。
本年的 CVPR 收到了四千余篇投稿,其中一个了了的信号正在显现:大厂不再比拼 GPU 数目,而是较量怎么把 GPU 用得更好。算力顽固之下,算法正在成为新的护城河。
在论文的汪洋中,字节逾越 Seed 团队是脱手最密集的玩家之一。
AI 科技指摘聚焦四篇来自字节逾越的论文—— TEMF、Beyond Token Eviction、Mixture-of-Depths Attention 和 GenieDrive。它们十足围绕一个中枢命题张开:当算力不再粗略 " 暴力 " 贬责,算法怎么接棒?
这四篇论文覆盖了一条竣工的链条:从生成模子的采样步数压缩,到推理过程的显存瘦身,再到驻扎力计较资源的动态分拨,最终蔓延到端侧部署的物理感知。它们不是孤苦的转变,而是 Seed 团队围绕 " 算力降本 " 这一命题打出的组合拳。
01
采样放慢:一步生成的口头跨越
大模子的推理本钱,很猛进度上藏在采样步数里。
以 Stable Diffusion 为代表的多步迭代生成,一个看似陋劣的 512 × 512 图像,背后可能是 50 到 100 次神经网罗前向传播。历练时模子学到的是"每一步该奈何加噪",但推理时模子需要作念的是"每一步该奈何去噪",这两个过程自然不合称,历练所在与推理所在之间存在沿途看不见的漏洞。
传统 MeanFlow 的口头差距问题正源于此:一步生成的质地恒久无法与多步采样竞争,而多步采样意味着成倍加多的算力滥用。
字节逾越 Seed 团队提交的 TEMF(Temporal Equilibrium MeanFlow)恰是对这一窘境的径直复兴。
TEMF 的中枢想象是让模子在历练阶段就同期学习"从数据到噪声"和"从噪声到数据"的双向变换,而非像传统归一化流那样只学习单向映射。
双向建模的后果立竿见影,模子在历练时就老练了反向采样的旅途,推理时不再需要依赖多步迭代来逐渐精湛,不错径直从噪声启航、在单次前向传播中完成通盘生成过程。
这种从百次计较到一次计较的跨越,在本质部署中带来的本钱削减是数目级的。

论文地址:
https://cvpr.thecvf.com/virtual/2026/poster/39823
有兴致的是,这谈漏洞的修补并非惟有一种解法。同期 Meta 发表的 Improved Mean Flows 从旨趣层面分析了快转发声模子历练与推理不合称的根源,并提议了我方的校阅框架。(Improved Mean Flows 的论文解读可阅读:何恺明团队论文全景扫描:一场对于「生成范式」的多角度冲破 | CVPR 2026)

论文地址: https://arxiv.org/abs/2512.02012
两支孤独团队在简直归并时辰节点作念出了雷同的本事判断—— 一步生成不是离奇乖癖,关键在于弥合历练与推理之间的结构性漏洞。这不是适值,这是行业共鸣正在造成的信号。
02
显存瘦身:KV Cache 的精确压缩
要是说 TEMF 贬责的是计较次数的问题,那么另一篇字节逾越 Seed 团队的使命 Beyond Token Eviction,则直指推理过程中另一个更笼罩的本钱中心:显存占用。
领会 KV Cache 的机制,是领会大模子推理本钱的关键切口。
当大讲话模子处理一段文本时,它需要记着此前统统词元的信息才能生成下一个词元。每一个经过驻扎力计较的词元,齐会在显存中留住一组对应的向量,这些向量是模子"险阻文缅想"的物理载体。
问题在于,这种"缅想"是只增不减的。当险阻文窗口从 4K 扩展到 32K、再到 100K,KV Cache 的显存占用也在同步推广。
一个有 100K 险阻文窗口的模子,仅 KV Cache 就可能滥用 40 到 60GB 的显存,而消费级显卡的显存上限不外 24GB,就连专科级 A100 也不外 80GB。也即是说,在不远的畴前,显存瓶颈会比计较瓶颈更早到来。
传统解法" Token Eviction "是在显存压力过大时,将一部分"不那么紧要"的旧 Token 休止出去,开释空间给新的 Token。
而 Beyond Token Eviction 的冲破则在于"搀和维度预算分拨"政策。它不再将 Token 的存留视为非此即彼的二元判断,而是允许不同 Token 领有不同的"精度维度"见解。紧要的 Token 保留更高的维度,从而竣工存储其语义信息;不那么关键的 Token 被压缩到更低的维度,以更少的空间保存其中枢语义。
这种"搀和维度"政策的本质是对信息作念"有损压缩"而非"透彻删除"。被压缩的 Token 仍然保留着鼓胀用于后续推理的语义信息,而模子通过历练学会了"自符合地"判断哪些 Token 值得高精度、哪些不错继承低精度。
系统不再需要在"全部保留"和"全部丢弃"之间作念遴荐,而是在精度与效劳之间找到了一个可调的平衡点。

用于 KV 缓存压缩的双阶段尺寸分拨经由
更难题的是,这套有诡计无需对模子进行任何重历练。云厂商不错径直将它部署在现存推理框架上,开云·体育中国官网以工程侧的轻量调动换取显存占用的大幅下落。

论文地址:https://arxiv.org/pdf/2603.20616
这恰是刻下大厂在降本旅途上最求实的遴荐:不是推翻重来,而是在既有架构上作念"微创手术"。
03
计较对等:让模子我方分拨算力
采样步数降了,显存空间省了,但字节在驻扎力计较的效劳问题上也莫得闲着。他们的 Mixture-of-Depths Attention,从计较资源分拨政策的维度提供了一种正交解法。
传统 Transformer 在处理每个 Token 时,齐会践诺竣工的驻扎力计较。这意味着,即使某个 Token 在刻下语境下的语义孝敬一丁点儿,它仍然会滥用与其他 Token 同等的计较资源。这种"一视同仁"的计较政策,本质上是一种隐性的算力奢侈。
新的念念路由此启航:并非统统 Token 齐需要被"深度处理"。它引入了一种动态路由机制,让模子在启动时自主决定——哪些 Token 值得走竣工的驻扎力计较旅途,哪些 Token 不错被涵养至更轻量的快速旅途。
一分彩APP官方网站下载
搀和深度驻扎力机制 MoDA
休止随之而来:系统层面的灵验计较量显贵下落,但模子输出的质地并未等比例衰减。确凿紧要的 Token 仍然取得了充分的计较资源,而多数"搭便车"的 Token 被涵养至旁路。
这种"让模子我方判断鱼贯而来"的念念路,代表了算法层面"降本增效"的一种优雅旅途。这与搀和大师(MoE)模子的想象形而上学一脉疏通,但不是通盘模子层的大师切换,而是在每个驻扎力层作念细粒度的资源治疗。
模子在历练过程中学会动态分拨计较预算,而非通过硬编码的寥落章程强行削减计较量——好钢用在刀刃上,这是 2026 年算法工程师们最但愿模子学会的身手。

论文地址:https://arxiv.org/pdf/2603.15619
04
端侧部署:物理感知驱动的宇宙模子
上述三篇使命简直齐在回答归并个问题:如安在有限的算力管理下,让模子跑得更快、占得更少。但字节逾越在 GenieDrive 这篇使命中,提议了一个更远见的问题:高效模子在端侧能作念什么?
自动驾驶的视觉感知系统,一直是算力武备竞赛的重灾地。传统自动驾驶的感知系统依赖多传感器交融,各司其职又互相冗余,在算力有限的镶嵌式平台上百孔千疮。
GenieDrive 把这个问题拆解得更深了一层。它搭建了一种"物理感知驱动的 4D 占用涵养视频生成"框架,不再将视觉感知视为一个"看懂图像"的问题,而是将其视为一个"领会物理宇宙怎么运转"的问题,不仅让模子生成视觉上传神的驾驶场景视频,还让模子具备对物理规章的基才气路,比如畅通物体的轨迹顺从物理动量、装璜干系顺从空间一致性、光照变化顺从物理反射模子。
这种想象的径直后果是:GenieDrive 生成的不是一段"视觉上传神的视频",而是一个"物理上简直的 4D 模拟环境"。
当这个模拟环境不错径直行状于下流的轨迹经营和决策截止时,端侧模子的贸易价值就迥殊了单纯的速率竞赛。比如说要是模子粗略准确料到"两秒后前列车辆会因为惯性连续滑行两米",这个信息对于紧要制动的决策价值,远高于"阿谁地方有一辆车"的语义标签。
值得驻扎的是,GenieDrive 的高效性并不来自单一算法的冲破,而是来自" 4D 暗示 + 物理先验 + 端到端蚁合优化"的协同想象。它代表了 2026 年大厂在高效视觉表征上的另一条旅途:不仅仅让模子跑得更快,而是让模子"想得更少、作念得更准"。

https://www.paperdigest.org/paper/?paper_id=cvpr-36900-2026-04-21
05
结语:算法天才的元年
纵不雅字节逾越 Seed 团队在 CVPR 2026 上这四篇论文,一个了了的叙事正在显现:算力顽固并莫得杀死转变,反而催生了一种更良好的工程形而上学。
TEMF 用"时辰平衡"弥合了历练与推理的结构漏洞,让一步生成从不成能变成了工程现实;
Beyond Token Eviction 用"搀和维度"从头界说了信息的采选政策,让显存压缩从悍戾删除变成了考究调控;
Mixture-of-Depths 让计较资源学会了「按需分拨」,让模子我方成为计较预算的机灵管家;
GenieDrive 则将高效表援引向了物理可阐发的端侧期骗,让速率竞赛升维为智能竞赛。
这四条旅途指向归并个论断:2026 年不是"大模子时期的驱逐",而是"机灵模子时期的元年"。当暴力堆砌算力的旅途变得不成捏续,那些粗略用更少资源作念更多事情的算法天才,正在成为这个时期最稀缺的东谈主才。
对于 CTO 和云厂商而言,字节的这组论文给出了一个了了的信号:与其恭候下一代芯片的算力提高,不如今天就拥抱这些算法优化带来的降本红利。
对于软硬件建造者而言,这意味着新的契机窗口正在灵通:适配 ELSA 这类硬件无关内核的编译器优化、基于动态驻扎力路由的模子压缩器用、面向 4D 物理感知模子的端侧部署框架,每一个才气齐是尚未被充分拓荒的富矿。
算力顽固的本质是沿路过济命题,但它的解法,最终要靠算法给出。
雷峰网开云体育