2026世界杯赛程104场比赛 Gemini 3.5 Flash 实测:当模子速率插足 4G 时期,Agent 的游戏端正变了


寰球武功,唯快不破。
作家|金光浩
剪辑|靖宇
本周 Google I/O 大会上,谷歌发布了最新模子 Gemini 3.5 Flash。

Google I/O 大会发布 Gemini 3.5 Flash|图片起首:youtube
道理道理的是,隔一天堂内 Qwen3.7-Max 也发布了,况且两个模子齐堪称我方在 Agent 场景上作念了深度优化。
我看到他们的第一反应是:又是新一轮「模子大战」,国表里厂商再次开启跑分竞赛。
但此次我花了两天时辰实测之后,我发现 Gemini 3.5 Flash 给我最大的感受不是它有多灵巧,而是它的速率快到让我不得不再行想一个问题:
当模子的反映速率从「能用」造成「及时」,扫数这个词 Agent 的使用体验会发生什么质变?
01
Gemini 3.5 Flash 是什么水平
Gemini 3.5 Flash 的定位很有道理:
Google 把它放在了 Flash 系列,但在 MCP Atlas 这个 Agent 基准测试上拿了 83.6% 的 SOTA 水平,以至突出了 GPT-5.5 的 75.3% 和 Claude Opus 4.7 的 79.1%。
代码智商在 Terminal-Bench 2.1 上得分 76.2%,突出了自家上一代旗舰 Gemini 3.1 Pro 的 70.3%。
这意味着一个 Flash 定位的模子,在干活智商上依然靠拢以至突出了许多旗舰产物。

Gemini 3.5 Flash 的各项性能|图片起首:Google 播客
订价方面,输入 1.5 好意思元 / 百万 token,输出 9 好意思元 / 百万 token。它跟 Claude Opus 4.7 输入 5 好意思元输出 25 好意思元的订价比,低廉了几倍。跟 GPT-5.5 比,也有彰着的价钱上风。
但委果让它在一众模子中脱颖而出的,是 289 tokens/ 秒的输出速率:首 token 延伸约莫 65 毫秒,比其他前沿模子快了 4 倍独揽。

Gemini 3.5 Flash 在性能 * 速率方面唯一档|图片起首:Google 播客
它在 benchmark 作念到了许多维度的 SOTA,具体用起来到底怎样样?
02
实测:
Gemini 3.5 Flash vs Qwen3.7-Max
先提一下:Qwen3.7-Max 和 Gemini 3.5 Flash 在 Text Arena 上的分数比拟接近。
AG真人国际厅中国官网
Gemini 3.5 Flash 和 qwen3.7-max 的评分很接近|图片起首:Arena
Qwen3.7-Max 这个模子,在评测集上依然突出了国内的旗舰模子 Kimi 2.6、GLM-5.1、DeepSeek-V4,是目下国内的第一水平,遵循也迥殊接近国际的顶尖模子。
Qwen 此次也专门为 Agent 可靠性遐想,接济长达 35 小时的端到端自主任求实行,推理内核经过深度 GPU 优化,速率擢升达 10 倍。

Qwen3.7-Max 的遵循|图片起首:Qwen
两个面向 Agent 场景的顶级选手放在一齐测,委果遵循会怎样呢?
第一个测试:写一首给我方的小情诗
教导词:帮我写首给我方的小情诗
这是个轻量级任务,主要看基础文本生成的速率和质地。
Qwen3.7-Max 输出用了 30 秒,Gemini 3.5 Flash 用了 11 秒。速率差距接近 3 倍。
质地上,Qwen 的中语文笔照实更好一些,遣意造句更有韵味。Gemini 固然中语抒发稍显直白,但酌量到 11 秒的反映时辰,这个反映体验依然很接近即时对话了。

Qwen 3.7-max 实测 |图片起首:Zenmux

Gemini 3.5 Flash 实测 |图片起首:Zenmux
如果你只是普通聊天写笔墨,两者齐够用。
但如果场景换成 Agent 产物,用户每说一句话齐在等回复,11 秒和 30 秒的差距等于「运动对话」和「彰着在等」的区别。
第二个测试:Golden Gate Bridge 3D 体素模拟
教导词:ObjectiveBuild a visually stunning, high-fidelity 3D voxel-style simulation of the Golden Gate Bridge in Three.js.Prioritize complex visuals ( not simple blocks ) , strong atmosphere depth, and smooth ~60FPS.Visuals & Atmosphere- Lighting: a Time-of-day slider ( 0 – 24h ) that controls sun position, intensity, sky color, and fog tint.- Fog: volumetric-feeling fog using lightweight sprite particles; slider 0 – 100 ( 0 = crystal clear, 100 = dense but not pure whiteout ) .- Water: custom shader for waves + specular reflections; blend horizon with distance-based fog ( exp2 ) so the far water merges naturally.- Post: ACES filmic tone mapping + optimized bloom ( night lights glow but keep performance ) .Scene Details- Bridge: recognizable art-deco towers, main span cables + suspenders, piers/anchors consistent with suspension bridge structure.- Terrain: simple but convincing Marin Headlands + SF side peninsula silhouettes.- Skyline: procedural/instanced city blocks on the SF side to suggest depth.- Traffic: up to ~400 cars via InstancedMesh, properly aligned on the deck ( avoid clipping ) . Headlights/taillights emissive at night.- Ships: a few procedural cargo ships with navigation lights moving across the bay.- Nature: a small flock of animated birds ( lightweight flocking ) .Night ModeAt night, enable city lights, bridge beacons, street lights, vehicle lights, ship nav lights.Tech & Controls ( Important ) - Output MUST be a single self-contained HTML file ( e.g., golden_gate_bridge.html ) that runs by opening in Chrome.- No build tools ( no Vite/Webpack ) . Pure HTML + JS.- Import Three.js and addons via CDN using ES Modules + importmap.- UI: nice-looking sliders for Time ( 0 – 24 ) , Fog Density ( 0 – 100 ) , Traffic Density ( 0 – 100 ) , Camera Zoom.- Optimization: use InstancedMesh for repeated items ( cars/lights/birds ) , avoid heavy geometry, keep draw calls low.
我给了一个迥殊复杂的 Three.js 需求,条款生成一个带日夜系统、雾气遵循、交通流、船只和鸟群的金门大桥 3D 场景,输出必须是单文献 HTML,不可用任何构建器具。
Qwen3.7-Max 输出用了 204 秒,猝然了 14770 个 token。Gemini 3.5 Flash 用了 157 秒,但猝然了 35996 个 token。


这里出现了一个有道理的征象:Gemini 固然总耗时更短,但 token 猝然是 Qwen 的 2.4 倍。
换句话说,Gemini 完成相似任务写的代码猝然的 token 照实更「多」,这也意味着举座 Gemini 在实行任务的用度更贵。
不外 Gemini 3.5 Flash 因为每秒吐出的 token 数目远高于敌手,是以如故能保握总时辰反而更短。
视觉遵循上,Qwen3.7-Max 的举座档次感更丰富,光影和氛围作念得更细腻。Gemini 则胜在桥的结构细节,悬索、塔柱的比例更接近委果的金门大桥。
两者各有长处,齐是高水准的输出。
第三个测试:macOS 菜单栏语音输入诓骗
教导词:https://github.com/yetone/voice-input-src
模子智商强不彊,Agent 场景才是委果拉开差距的地点。
前两个测试骨子上齐是「一次性生成」——给个教导词,模子输出一段内容就终局了。但委果的 Agent 责任流不是这么的,它是一个长程任务,需要模子反复与环境交互、试错、修正。
是以此次,我让两个模子各自终了一个完满的 macOS 语音输入诓骗。这个开源样式很有道理:仓库里唯有一份教导词,莫得任何代码。意象一又友说的那句话:在 AI 时期,文档是财富,代码是欠债。
我把需求丢给两个模子,辞别在 Claude Code 上跑。需求包括:Fn 键全局监听、流式语音识别、悬浮窗动画、输入法兼容贬责、LLM 纠错集成、菜单栏成立界面,最终条款输出签名好的 .app 包。
截止差距迥殊大:
Qwen3.7-Max 跑了 55 分钟,然而秩序也没能一遍过,中间出现编译子虚,需要东说念主工介入。

而 Gemini 3.5 Flash 仅跑了 10 分钟,秩序平直一遍过。

从 55 分钟到 10 分钟:快要 5 倍的遵循差距,而且 Gemini 的输出是平直能用的,不需要特殊调试。
这个截止让我有点只怕:
之前写诗和作念 3D 的测试里,两者差距并不大。但一朝插足 Agent 编程的场景,Gemini 3.5 Flash 的 Agent 智商和速率上风被急剧放大了。
原因也很好聚拢:Agent 实行长程编码任务,不是一次性输出一大段笔墨,而是要反复调用器具、读取反馈、修改代码、再次实行。每一轮交互齐省下来的时辰积聚起来,差距就变得纷乱。
03
模子体验正在插足 4G 时期
我用了一个可能不太精准,开云数据分析但很直不雅的说法:
昔时大模子的生成速率更接近 3G 的体验,你知说念它在责任,但你需要等。
而 Gemini 3.5 Flash,让我第一次感受到了接近 4G 的运动度。
这种速率上的变化带来的不单是是「快小数」的体验擢升,它平直决定了某些产物形态能不可建造。
比如 AI 伴随这个场景:最近 520 EVE 火了,王中式最近也上线了 AI 伴随产物 The One。
在伴随场景里,用户对报恩速率的敏锐度极高:
如果对方两三秒就能回你,那种嗅觉是「在聊天」,但如果要等十几秒,那种嗅觉是「在等一个机器给你生成内容」。
而 Gemini 3.5 Flash 65 毫秒的首 token 延伸,289 tokens/ 秒的输出速率,意味着用户险些感受不到恭候。

微信里的 AI 伴随 The One |图片起首:微信
但速率和智能之间存在一个很现实的矛盾:
GPT-5.4 刚出来的时候,编程遵循突出了 Anthropic 4.5,但好多东说念主如故接纳陆续用 Anthropic 4.5。
为什么?因为在执行工程任务里,厚实性和指示死守的精度有时候比极致的灵巧更迂回:
模子想变得更灵巧,常常意味着参数目更大、推理链更长,这就会导致速率下跌。
是以行业里启动出现一种分化:有的公司死磕模子智商上限,有的公司则专注于在保握够用的智能水平的同期,把速率推到极致。
Gemini 3.5 Flash 接纳了后者,而且作念得相当激进:它以至把默许推理档位从上一代 Flash 的 High 降到了 Medium,主动箝制推理深度来换取速率擢升。
Google 在这里作念了一个过失的决议:关于 Agent 场景来说,快比灵巧更迂回。
这个判断对分歧?从 Agent 的发展趋势来看,它很可能是对的。
04
速率对 Agent 意味着什么
回到著作滥觞阿谁问题:
当模子的反映速率从「能用」造成「及时」,Agent 的使用体验会发生什么质变?
我想从两个维度来去答。
第一个是及时交互的体验升级。
Claude Code 这类 Agent 产物在实行任务时,用户能彰着嗅觉到模子在「念念考」「恭候」「贬责」的舛讹。
这些舛讹加起来,一个 20 分钟的任务可能有 5 分钟是你在看它转圈。
当速率快 4 倍,这些舛讹被大幅压缩,扫数这个词经过变得更像「你布置任务,它运动实行」,而不是「你布置任务,它断断续续地干」。
第二个维度更有道理,亦然我以为 Gemini 3.5 Flash 委果的价值所在:
它让 Agent 能在疏导技艺内完成更多的事。
遐想一下这么一个场景。假定你让一个 Agent 跑 24 小时来完成一个大型样式。如果模子输出速率是正本的 4 倍,在 Agent 调用器具的时辰不变的前提下,一天内的产出可能擢升 2 到 3 倍。
这个打算很毛糙,因为 Agent 实行经过中有多数时辰花在恭候器具复返截止、读取文献、编译代码上,这些时辰不会因为模子变快而裁汰。但模子念念考和输出代码的那部分时辰照实能被大幅压缩。
而最近的趋势是,Agent 实行任务的时辰越来越长:
Claude Code 在不断优化它的任务编排智商;OpenAI Codex 最近推出了 /goal 功能,不错让 Agent 一语气运行几小时以至几天直到任务完成;各家齐在奋勉拉长模子的握续责任时辰:从半小时的任务到几小时的样式,再到 Qwen3.7-Max 声称接济的 35 小时端到端实行。
任务时辰线被拉长的同期,模子反映速率的价值也在同步放大:
一个 10 分钟的任务,省几分钟你可能无感。
但当任务拉长到 10 小时、24 小时,省下的时辰可能是小时级的。
即使只算模子输出要津快 4 倍,一天的长程任务也能多挤出好几个小时的灵验产出。

Agent 的长程责任时辰越来越长 | 图片起首:Anthropic
这等于 Gemini 3.5 Flash 对 Agent 生态委果的价值:
它让 Agent 的坐蓐遵循擢升了一个量级,而且这个收益会跟着任务时长的增多而握续放大。
05
长程 Agent 智商之王
写到这里我想作念个回归。
Gemini 3.5 Flash 有彰着的短板:它在 Humanity's Last Exam 上只拿了 40.2%,低于自家上一代 Pro 的 44.4%。在抽象推理、长文档检索等测试中证据也不算凸起。
它照实「偏科」,这是特意而为之,Google 主动在某些智商上作念了采纳:
Gemini 3.5 Flash 接纳了 Coding 和 长程 Agent 智商,比如在 APEX 基准测试上(评估模子在委果责任场景中实行跨诓骗、长跨度任务的智商),Gemini 3.5 Flash 排行众人第一。

Gemini 3.5 Flash 在 APEX 唯一档 | 图片起首:artificialanalysis
但如果你把视角从「模子对比」切换到「Agent 器具选型」,你会发现这些短板在好多执行场景里并不致命:
大部分 Agent 任务不需要模子去回答「东说念主类临了一考」那种概述学问题,它需要的是快速生成代码、准确调用器具、高效贬责多门径责任流。
而在这些场景上,Gemini 3.5 Flash 作念到了又快又好。
前两天听了一期播客,张小珺对姚顺宇的四小时访谈,姚顺宇是从 Anthropic 跳到 Google DeepMind 的照应科学家,参与过 Claude 3.7 和 Gemini 3 的开荒。

张小珺和姚顺宇对谈 | 图片起首:小天地
他有句话让我印象很深:目下模子在纸面上看着齐差未几,benchmark 高一个点低一个点,那些差距主若是噪声而不是信号,执行用起来,区别依然彰着。
然后他聊到我方目下的照应重点,两件事:AI 我方作念照应,以及 long horizon。Long horizon 等于让模子在更长的时辰跨度里握续责任,完成那些一句教导词搞不定的复杂任务。
Gemini 3.5 Flash 无疑是这个不雅点印证,它的发布秀美着一个新阶段的启动:
以前咱们选模子看的是「谁最灵巧」。但当 Agent 成为主要的调用方式,谜底可能要改成「谁能让 Agent 跑得最快、最远、最稳」。它亦然第一个让我明确感知到这个拐点的产物。
如果你正在用 Claude Code 大致其他 Agent 器具作念开荒,我提议试试把底层模子切到 Gemini 3.5 Flash 跑几个样式。
你会发现:那种 10 分钟请托一个完满诓骗的体验,用过之后很难且归。
毕竟,寰球武功,唯快不破。
* 头图起首:youtube
本文为极客公园原创著作,转载请关连极客君微信 geekparkGO
极客一问
你认为大模子的速率和智商,
哪个更迂回?
