2026世界杯赛程104场比赛 Gemini 3.5 Flash 实测：当模子速率插足 4G 时期，Agent 的游戏端正变了

来源：未知作者：admin 时间：2026-05-26 15:42 浏览：191

寰球武功，唯快不破。

作家｜金光浩

剪辑｜靖宇

本周 Google I/O 大会上，谷歌发布了最新模子 Gemini 3.5 Flash。

Google I/O 大会发布 Gemini 3.5 Flash｜图片起首：youtube

道理道理的是，隔一天堂内 Qwen3.7-Max 也发布了，况且两个模子齐堪称我方在 Agent 场景上作念了深度优化。

我看到他们的第一反应是：又是新一轮「模子大战」，国表里厂商再次开启跑分竞赛。

但此次我花了两天时辰实测之后，我发现 Gemini 3.5 Flash 给我最大的感受不是它有多灵巧，而是它的速率快到让我不得不再行想一个问题：

当模子的反映速率从「能用」造成「及时」，扫数这个词 Agent 的使用体验会发生什么质变？

Gemini 3.5 Flash 是什么水平

Gemini 3.5 Flash 的定位很有道理：

Google 把它放在了 Flash 系列，但在 MCP Atlas 这个 Agent 基准测试上拿了 83.6% 的 SOTA 水平，以至突出了 GPT-5.5 的 75.3% 和 Claude Opus 4.7 的 79.1%。

代码智商在 Terminal-Bench 2.1 上得分 76.2%，突出了自家上一代旗舰 Gemini 3.1 Pro 的 70.3%。

这意味着一个 Flash 定位的模子，在干活智商上依然靠拢以至突出了许多旗舰产物。

Gemini 3.5 Flash 的各项性能｜图片起首：Google 播客

订价方面，输入 1.5 好意思元 / 百万 token，输出 9 好意思元 / 百万 token。它跟 Claude Opus 4.7 输入 5 好意思元输出 25 好意思元的订价比，低廉了几倍。跟 GPT-5.5 比，也有彰着的价钱上风。

但委果让它在一众模子中脱颖而出的，是 289 tokens/ 秒的输出速率：首 token 延伸约莫 65 毫秒，比其他前沿模子快了 4 倍独揽。

Gemini 3.5 Flash 在性能 * 速率方面唯一档｜图片起首：Google 播客

它在 benchmark 作念到了许多维度的 SOTA，具体用起来到底怎样样？

实测：

Gemini 3.5 Flash vs Qwen3.7-Max

先提一下：Qwen3.7-Max 和 Gemini 3.5 Flash 在 Text Arena 上的分数比拟接近。

AG真人国际厅中国官网

Gemini 3.5 Flash 和 qwen3.7-max 的评分很接近｜图片起首：Arena

Qwen3.7-Max 这个模子，在评测集上依然突出了国内的旗舰模子 Kimi 2.6、GLM-5.1、DeepSeek-V4，是目下国内的第一水平，遵循也迥殊接近国际的顶尖模子。

Qwen 此次也专门为 Agent 可靠性遐想，接济长达 35 小时的端到端自主任求实行，推理内核经过深度 GPU 优化，速率擢升达 10 倍。

Qwen3.7-Max 的遵循｜图片起首：Qwen

两个面向 Agent 场景的顶级选手放在一齐测，委果遵循会怎样呢？

第一个测试：写一首给我方的小情诗

教导词：帮我写首给我方的小情诗

这是个轻量级任务，主要看基础文本生成的速率和质地。

Qwen3.7-Max 输出用了 30 秒，Gemini 3.5 Flash 用了 11 秒。速率差距接近 3 倍。

质地上，Qwen 的中语文笔照实更好一些，遣意造句更有韵味。Gemini 固然中语抒发稍显直白，但酌量到 11 秒的反映时辰，这个反映体验依然很接近即时对话了。

Qwen 3.7-max 实测｜图片起首：Zenmux

Gemini 3.5 Flash 实测｜图片起首：Zenmux

如果你只是普通聊天写笔墨，两者齐够用。

但如果场景换成 Agent 产物，用户每说一句话齐在等回复，11 秒和 30 秒的差距等于「运动对话」和「彰着在等」的区别。

第二个测试：Golden Gate Bridge 3D 体素模拟

教导词：ObjectiveBuild a visually stunning， high-fidelity 3D voxel-style simulation of the Golden Gate Bridge in Three.js.Prioritize complex visuals ( not simple blocks ) ， strong atmosphere depth， and smooth ~60FPS.Visuals & Atmosphere- Lighting: a Time-of-day slider ( 0 – 24h ) that controls sun position， intensity， sky color， and fog tint.- Fog: volumetric-feeling fog using lightweight sprite particles; slider 0 – 100 ( 0 = crystal clear， 100 = dense but not pure whiteout ) .- Water: custom shader for waves + specular reflections; blend horizon with distance-based fog ( exp2 ) so the far water merges naturally.- Post: ACES filmic tone mapping + optimized bloom ( night lights glow but keep performance ) .Scene Details- Bridge: recognizable art-deco towers， main span cables + suspenders， piers/anchors consistent with suspension bridge structure.- Terrain: simple but convincing Marin Headlands + SF side peninsula silhouettes.- Skyline: procedural/instanced city blocks on the SF side to suggest depth.- Traffic: up to ~400 cars via InstancedMesh， properly aligned on the deck ( avoid clipping ) . Headlights/taillights emissive at night.- Ships: a few procedural cargo ships with navigation lights moving across the bay.- Nature: a small flock of animated birds ( lightweight flocking ) .Night ModeAt night， enable city lights， bridge beacons， street lights， vehicle lights， ship nav lights.Tech & Controls ( Important ) - Output MUST be a single self-contained HTML file ( e.g.， golden_gate_bridge.html ) that runs by opening in Chrome.- No build tools ( no Vite/Webpack ) . Pure HTML + JS.- Import Three.js and addons via CDN using ES Modules + importmap.- UI: nice-looking sliders for Time ( 0 – 24 ) ， Fog Density ( 0 – 100 ) ， Traffic Density ( 0 – 100 ) ， Camera Zoom.- Optimization: use InstancedMesh for repeated items ( cars/lights/birds ) ， avoid heavy geometry， keep draw calls low.

我给了一个迥殊复杂的 Three.js 需求，条款生成一个带日夜系统、雾气遵循、交通流、船只和鸟群的金门大桥 3D 场景，输出必须是单文献 HTML，不可用任何构建器具。

Qwen3.7-Max 输出用了 204 秒，猝然了 14770 个 token。Gemini 3.5 Flash 用了 157 秒，但猝然了 35996 个 token。

这里出现了一个有道理的征象：Gemini 固然总耗时更短，但 token 猝然是 Qwen 的 2.4 倍。

换句话说，Gemini 完成相似任务写的代码猝然的 token 照实更「多」，这也意味着举座 Gemini 在实行任务的用度更贵。

不外 Gemini 3.5 Flash 因为每秒吐出的 token 数目远高于敌手，是以如故能保握总时辰反而更短。

视觉遵循上，Qwen3.7-Max 的举座档次感更丰富，光影和氛围作念得更细腻。Gemini 则胜在桥的结构细节，悬索、塔柱的比例更接近委果的金门大桥。

两者各有长处，齐是高水准的输出。

第三个测试：macOS 菜单栏语音输入诓骗

教导词：https://github.com/yetone/voice-input-src

模子智商强不彊，Agent 场景才是委果拉开差距的地点。

前两个测试骨子上齐是「一次性生成」——给个教导词，模子输出一段内容就终局了。但委果的 Agent 责任流不是这么的，它是一个长程任务，需要模子反复与环境交互、试错、修正。

是以此次，我让两个模子各自终了一个完满的 macOS 语音输入诓骗。这个开源样式很有道理：仓库里唯有一份教导词，莫得任何代码。意象一又友说的那句话：在 AI 时期，文档是财富，代码是欠债。

我把需求丢给两个模子，辞别在 Claude Code 上跑。需求包括：Fn 键全局监听、流式语音识别、悬浮窗动画、输入法兼容贬责、LLM 纠错集成、菜单栏成立界面，最终条款输出签名好的 .app 包。

截止差距迥殊大：

Qwen3.7-Max 跑了 55 分钟，然而秩序也没能一遍过，中间出现编译子虚，需要东说念主工介入。

而 Gemini 3.5 Flash 仅跑了 10 分钟，秩序平直一遍过。

从 55 分钟到 10 分钟：快要 5 倍的遵循差距，而且 Gemini 的输出是平直能用的，不需要特殊调试。

这个截止让我有点只怕：

之前写诗和作念 3D 的测试里，两者差距并不大。但一朝插足 Agent 编程的场景，Gemini 3.5 Flash 的 Agent 智商和速率上风被急剧放大了。

原因也很好聚拢：Agent 实行长程编码任务，不是一次性输出一大段笔墨，而是要反复调用器具、读取反馈、修改代码、再次实行。每一轮交互齐省下来的时辰积聚起来，差距就变得纷乱。

模子体验正在插足 4G 时期

我用了一个可能不太精准，开云数据分析但很直不雅的说法：

昔时大模子的生成速率更接近 3G 的体验，你知说念它在责任，但你需要等。

而 Gemini 3.5 Flash，让我第一次感受到了接近 4G 的运动度。

这种速率上的变化带来的不单是是「快小数」的体验擢升，它平直决定了某些产物形态能不可建造。

比如 AI 伴随这个场景：最近 520 EVE 火了，王中式最近也上线了 AI 伴随产物 The One。

在伴随场景里，用户对报恩速率的敏锐度极高：

如果对方两三秒就能回你，那种嗅觉是「在聊天」，但如果要等十几秒，那种嗅觉是「在等一个机器给你生成内容」。

而 Gemini 3.5 Flash 65 毫秒的首 token 延伸，289 tokens/ 秒的输出速率，意味着用户险些感受不到恭候。

微信里的 AI 伴随 The One ｜图片起首：微信

但速率和智能之间存在一个很现实的矛盾：

GPT-5.4 刚出来的时候，编程遵循突出了 Anthropic 4.5，但好多东说念主如故接纳陆续用 Anthropic 4.5。

为什么？因为在执行工程任务里，厚实性和指示死守的精度有时候比极致的灵巧更迂回：

模子想变得更灵巧，常常意味着参数目更大、推理链更长，这就会导致速率下跌。

是以行业里启动出现一种分化：有的公司死磕模子智商上限，有的公司则专注于在保握够用的智能水平的同期，把速率推到极致。

Gemini 3.5 Flash 接纳了后者，而且作念得相当激进：它以至把默许推理档位从上一代 Flash 的 High 降到了 Medium，主动箝制推理深度来换取速率擢升。

Google 在这里作念了一个过失的决议：关于 Agent 场景来说，快比灵巧更迂回。

这个判断对分歧？从 Agent 的发展趋势来看，它很可能是对的。

速率对 Agent 意味着什么

回到著作滥觞阿谁问题：

当模子的反映速率从「能用」造成「及时」，Agent 的使用体验会发生什么质变？

我想从两个维度来去答。

第一个是及时交互的体验升级。

Claude Code 这类 Agent 产物在实行任务时，用户能彰着嗅觉到模子在「念念考」「恭候」「贬责」的舛讹。

这些舛讹加起来，一个 20 分钟的任务可能有 5 分钟是你在看它转圈。

当速率快 4 倍，这些舛讹被大幅压缩，扫数这个词经过变得更像「你布置任务，它运动实行」，而不是「你布置任务，它断断续续地干」。

第二个维度更有道理，亦然我以为 Gemini 3.5 Flash 委果的价值所在：

它让 Agent 能在疏导技艺内完成更多的事。

遐想一下这么一个场景。假定你让一个 Agent 跑 24 小时来完成一个大型样式。如果模子输出速率是正本的 4 倍，在 Agent 调用器具的时辰不变的前提下，一天内的产出可能擢升 2 到 3 倍。

这个打算很毛糙，因为 Agent 实行经过中有多数时辰花在恭候器具复返截止、读取文献、编译代码上，这些时辰不会因为模子变快而裁汰。但模子念念考和输出代码的那部分时辰照实能被大幅压缩。

而最近的趋势是，Agent 实行任务的时辰越来越长：

Claude Code 在不断优化它的任务编排智商；OpenAI Codex 最近推出了 /goal 功能，不错让 Agent 一语气运行几小时以至几天直到任务完成；各家齐在奋勉拉长模子的握续责任时辰：从半小时的任务到几小时的样式，再到 Qwen3.7-Max 声称接济的 35 小时端到端实行。

任务时辰线被拉长的同期，模子反映速率的价值也在同步放大：

一个 10 分钟的任务，省几分钟你可能无感。

但当任务拉长到 10 小时、24 小时，省下的时辰可能是小时级的。

即使只算模子输出要津快 4 倍，一天的长程任务也能多挤出好几个小时的灵验产出。

Agent 的长程责任时辰越来越长 | 图片起首：Anthropic

这等于 Gemini 3.5 Flash 对 Agent 生态委果的价值：

它让 Agent 的坐蓐遵循擢升了一个量级，而且这个收益会跟着任务时长的增多而握续放大。

长程 Agent 智商之王

写到这里我想作念个回归。

Gemini 3.5 Flash 有彰着的短板：它在 Humanity's Last Exam 上只拿了 40.2%，低于自家上一代 Pro 的 44.4%。在抽象推理、长文档检索等测试中证据也不算凸起。

它照实「偏科」，这是特意而为之，Google 主动在某些智商上作念了采纳：

Gemini 3.5 Flash 接纳了 Coding 和长程 Agent 智商，比如在 APEX 基准测试上（评估模子在委果责任场景中实行跨诓骗、长跨度任务的智商），Gemini 3.5 Flash 排行众人第一。

Gemini 3.5 Flash 在 APEX 唯一档 | 图片起首：artificialanalysis

但如果你把视角从「模子对比」切换到「Agent 器具选型」，你会发现这些短板在好多执行场景里并不致命：

大部分 Agent 任务不需要模子去回答「东说念主类临了一考」那种概述学问题，它需要的是快速生成代码、准确调用器具、高效贬责多门径责任流。

而在这些场景上，Gemini 3.5 Flash 作念到了又快又好。

前两天听了一期播客，张小珺对姚顺宇的四小时访谈，姚顺宇是从 Anthropic 跳到 Google DeepMind 的照应科学家，参与过 Claude 3.7 和 Gemini 3 的开荒。

张小珺和姚顺宇对谈 | 图片起首：小天地

他有句话让我印象很深：目下模子在纸面上看着齐差未几，benchmark 高一个点低一个点，那些差距主若是噪声而不是信号，执行用起来，区别依然彰着。

然后他聊到我方目下的照应重点，两件事：AI 我方作念照应，以及 long horizon。Long horizon 等于让模子在更长的时辰跨度里握续责任，完成那些一句教导词搞不定的复杂任务。

Gemini 3.5 Flash 无疑是这个不雅点印证，它的发布秀美着一个新阶段的启动：

以前咱们选模子看的是「谁最灵巧」。但当 Agent 成为主要的调用方式，谜底可能要改成「谁能让 Agent 跑得最快、最远、最稳」。它亦然第一个让我明确感知到这个拐点的产物。

如果你正在用 Claude Code 大致其他 Agent 器具作念开荒，我提议试试把底层模子切到 Gemini 3.5 Flash 跑几个样式。

你会发现：那种 10 分钟请托一个完满诓骗的体验，用过之后很难且归。

毕竟，寰球武功，唯快不破。

* 头图起首：youtube

本文为极客公园原创著作，转载请关连极客君微信 geekparkGO

极客一问

你认为大模子的速率和智商，

哪个更迂回？