国产欧美在线看,99精品成人,97毛片

模型圈一直都很熱鬧，每月都有各種新的模型出來(lái)。

最近一個(gè)月，國(guó)產(chǎn)大模型不斷推出新模型，Step 3.7 Flash、MiniMax M3、GLM-5.2、Kimi K2.7 Code幾乎都是前后腳發(fā)布。

我仔細(xì)研究了一下這幾個(gè)新的模型，它們的路子還有點(diǎn)不一樣，Step 3.7 Flash主攻性價(jià)比和低延遲，MiniMax M3死磕超長(zhǎng)上下文和Agentic Workflow，GLM-5.2走通用開源路線，Kimi K2.7 Code 則專門服務(wù)編程場(chǎng)景。

目前來(lái)看，模型發(fā)展有個(gè)趨勢(shì)非常明顯：大模型競(jìng)爭(zhēng)已經(jīng)不單是拼誰(shuí)性能最好，推理能力最強(qiáng)，現(xiàn)在都在往Agent方向發(fā)力，在高頻使用場(chǎng)景里，看誰(shuí)家的模型好用、穩(wěn)定，性價(jià)比更高。

以前我們?cè)诹腇lash模型，都覺(jué)得它是Pro版的廉價(jià)替代品，沒(méi)有什么用。復(fù)雜的交給Pro，簡(jiǎn)單不重要的扔給Flash，F(xiàn)lash就是個(gè)省錢選項(xiàng)。

現(xiàn)在來(lái)看，情況有些不一樣了。Flash模型已經(jīng)不再是我們常說(shuō)的備胎了，它已經(jīng)是一個(gè)單獨(dú)的品類，而且各個(gè)模型廠商都在推出這類模型。

目前我們可以簡(jiǎn)單地把模型分成二檔。

第一種是Pro檔。主打一個(gè)極限推理、復(fù)雜編程和長(zhǎng)鏈條Agent任務(wù)，像Claude Opus 4.8和GPT-5.5就屬于這類。它們?cè)诟唠y度評(píng)測(cè)集上得分都很高，但是它的價(jià)格也是很高，稍微搞一些高頻任務(wù)，賬單就有點(diǎn)受不了。

第二種可以叫Flash檔，或者效率前沿。Step 3.7 Flash、DeepSeek V4 Flash、Gemini 3.5 Flash、Qwen3.6 Flash都在這個(gè)陣營(yíng)，這類模型不追求單項(xiàng)能力很強(qiáng)，而是在高頻、多輪、低延遲、大規(guī)模使用的的場(chǎng)景里，在速度、成本、上下文長(zhǎng)度和穩(wěn)定性之間找到一個(gè)平衡。

尤其是在 Agent 場(chǎng)景里，F(xiàn)lash 模型承擔(dān)的角色越來(lái)越像執(zhí)行層模型，它不一定是負(fù)責(zé)最極限的推理模型，但要負(fù)責(zé)大量實(shí)際任務(wù)的拆解、工具調(diào)用、代碼生成、錯(cuò)誤修復(fù)和結(jié)果整理。

所以判斷一個(gè) Flash 模型好不好，不能只看 benchmark 測(cè)評(píng)，也不能簡(jiǎn)單的看單次問(wèn)答，而要看它在真實(shí)任務(wù)里是否穩(wěn)定、少犯錯(cuò)誤少返工、是否能把任務(wù)一次性跑完。

今天我們就先拿Step 3.7 Flash來(lái)試試，把它和其他幾款Flash模型放在一起，用真實(shí)項(xiàng)目從代碼生成效率、響應(yīng)速度與成本、工具調(diào)用穩(wěn)定性三個(gè)角度挨個(gè)跑一遍，看看到底誰(shuí)更好用。

測(cè)試方法

我們這邊使用Claude code 來(lái)測(cè)試，測(cè)試的模型比較多，我們可以安裝cc switch，配置好各個(gè)模型廠商后可以一鍵切換，非常方便。

也可以通過(guò)修改json配置文件來(lái)切換模型 ~/.claude/settings.json，例如 Step 3.7 Flash 的配置

這里也提前說(shuō)明一下，這篇不是特別嚴(yán)謹(jǐn)?shù)?benchmark，更像是我自己拿幾個(gè)真實(shí)任務(wù)跑了一圈，看看模型真實(shí)干活的時(shí)表現(xiàn)如何。

因?yàn)閷?shí)際測(cè)試的時(shí)候，不同模型能用的工具鏈并不完全一樣。Step 3.7 Flash、DeepSeek V4 Flash、Qwen3.6 Flash，我主要是在 Claude Code 里跑, Gemini 3.5 Flash，我這邊只能放到 Google Antigravity 里面測(cè)試。

所以后面看到時(shí)間、Token、報(bào)錯(cuò)次數(shù)這些數(shù)據(jù)，大家不要直接理解成排行榜。我們不是要證明誰(shuí)是第一，而是想看看，在真實(shí) Agent 任務(wù)里，誰(shuí)更穩(wěn)定、少犯錯(cuò)、最后交出來(lái)的東西是一個(gè)能用的成品。

案例測(cè)試

案例一：從零搭建開發(fā)者日志站

這個(gè)案例我們主要對(duì)比下 Step 3.7 Flash 和 DeepSeek V4 Flash 這個(gè)兩個(gè)模型

我直接把下面這段 prompt 丟給 Claude Code，兩個(gè)模型各跑一次：

這個(gè)任務(wù)不算特別難，模型需要理解技術(shù)棧要求，搭 Next.js 項(xiàng)目結(jié)構(gòu)，配置 Markdown 解析，寫列表頁(yè)和詳情頁(yè)，加標(biāo)簽篩選和語(yǔ)法高亮，還要生成 5 篇像樣的示例日志。

中間任何一個(gè)步驟出錯(cuò)，就可能導(dǎo)致項(xiàng)目跑不起來(lái)、頁(yè)面功能不完整，或者前端顯示不太好

我們先來(lái)看下 deepseek-v4-flash的效果

頁(yè)面上總體功能都符合需求，模型一輪就給出了結(jié)果，沒(méi)有讓我們多次提示，中間執(zhí)行過(guò)程中，模型在編譯的時(shí)候遇到了3次錯(cuò)誤，都是自己修復(fù)，最后給出的是一個(gè)可用的網(wǎng)頁(yè)成品。

再來(lái)看看 Step 3.7 Flash 的效果

這個(gè)頁(yè)面同樣是一輪生成，布局上采用了卡片式網(wǎng)格結(jié)構(gòu)，每篇文章以標(biāo)題、描述和標(biāo)簽組合展示，點(diǎn)擊卡片進(jìn)入詳情頁(yè)。相比DeepSeek V4 Flash偏列表化的信息陳列，Step 3.7 Flash生成的頁(yè)面更強(qiáng)調(diào)視覺(jué)層級(jí)，導(dǎo)航欄固定了分類篩選，交互上更貼近成熟的博客系統(tǒng)，整體觀感更加規(guī)整。

這兩個(gè)網(wǎng)頁(yè)，你們更喜歡那種風(fēng)格，我是更加傾向 step-3.7-flash這種。

看完效果，我們來(lái)看下，時(shí)間，成本的消耗，我做了個(gè)對(duì)比圖

從圖中可以看出，兩個(gè)模型的輸入token基本上差不多，Step 3.7 Flash 的模型輸出要多很多，難道是這個(gè)原因，導(dǎo)致效果要好一點(diǎn)嗎，API消耗的時(shí)間也沒(méi)有多大的差距，成本上deepseek確實(shí)更加便宜，從API定價(jià)來(lái)看，國(guó)內(nèi)外好像也沒(méi)那個(gè)模型能夠和deepseek比。

案例二：GitHub 項(xiàng)目雷達(dá)

我們來(lái)看看 Step 3.7 Flash 和 Gemini 3.5 Flash 對(duì)比表現(xiàn)如何

提示詞如下：

我們先看下Gemini 3.5 Flash的效果，直接把提示詞給到 google Antigravity

任務(wù)是一次性完成，雖然說(shuō)中間有2個(gè)工具報(bào)錯(cuò)，都是模型自動(dòng)修復(fù)，沒(méi)有人工介入，最后給出了一個(gè)完整可運(yùn)行的腳本和頁(yè)面。

Gemini 這次任務(wù)完成度沒(méi)有問(wèn)題，但頁(yè)面組織比較松散，信息密度和視覺(jué)層級(jí)不太友好。

我們?cè)趤?lái)看 Step 3.7 Flash 的效果，把相同的提示詞給到claude code

任務(wù)頁(yè)是一次性完成，中間沒(méi)有發(fā)生任何錯(cuò)誤，給出了一個(gè)完整可運(yùn)行的腳本和頁(yè)面。

頁(yè)面采用了卡片式的布局，每個(gè)卡片清晰呈現(xiàn)項(xiàng)目名稱、簡(jiǎn)短描述、編程語(yǔ)言、Star總數(shù)及本周增量。信息密度適中，視覺(jué)層次分明。稍顯不足的是分類導(dǎo)航?jīng)]有固定在頂部，需要滾動(dòng)到對(duì)應(yīng)區(qū)域才能看到其他分類。但整體排版、字體和間距控制都比較舒適，Step 3.7 Flash 更接近一個(gè)可交付的看板頁(yè)面。

這輪任務(wù)中，Step 3.7 Flash 一共消耗 406.5k input tokens 和 18.7k output tokens，沒(méi)有緩存命中。執(zhí)行時(shí)間上，API 時(shí)間為 2 分 25 秒，完整 Wall 時(shí)間為 4 分 45 秒。按 Step 3.7 Flash 官方價(jià)格估算，這次任務(wù)成本約 0.7 元人民幣。

Gemini 3.5 Flash 的消耗不好查看，沒(méi)有記錄可以查看的地方，時(shí)間消耗兩邊都差不多，在3分鐘左右，這邊只顯示了額度被消耗了28%，無(wú)法查看token的一個(gè)具體消耗。

案例三：源碼解讀

寫代碼只是 Coding Agent 的一部分。

另外一個(gè)高頻的場(chǎng)景是讀代碼，這個(gè)是我們經(jīng)常遇到的事情，接手一個(gè)陌生項(xiàng)目、理解一個(gè)開源庫(kù)、分析一個(gè)框架的核心鏈路，然后把它轉(zhuǎn)成團(tuán)隊(duì)能讀懂的文檔。

所以第三個(gè)案例我選了一個(gè)源碼解讀，讓它階段源碼，給出輸出一個(gè)html的頁(yè)面，這個(gè)源碼解讀，需要多輪工具調(diào)用，我們可以看看它們?cè)诙噍喒ぞ哒{(diào)用上的表現(xiàn)如何。

提示詞如下

我們先來(lái)看下Qwen3.6 Flash的效果

在執(zhí)行過(guò)程中，發(fā)生了多次工具調(diào)用失敗的場(chǎng)景，不過(guò)Agent最后都做了修復(fù)，一次對(duì)話就完成了任務(wù)

總體來(lái)說(shuō)效果還是可以的，按照我們給的需求完成了任務(wù)，對(duì)memo0這個(gè)記憶架構(gòu)框架的源碼總結(jié)也比較到位

再來(lái)看看 Step 3.7 Flash 的效果如何

在執(zhí)行過(guò)程中，沒(méi)有發(fā)生工具調(diào)用錯(cuò)誤，一次性完成了所有任務(wù)，和Qwen3.6 Flash 相比，差異不是很大，就是左邊多了一個(gè)導(dǎo)航菜單，可以直接點(diǎn)擊快速定位到想看的目錄。

看完效果，我們來(lái)看下，時(shí)間，成本的消耗，我簡(jiǎn)單做了個(gè)對(duì)比的表格，大家可以自己看下。

幾輪測(cè)試后的橫向?qū)Ρ?/span>

從這張表里可以看出，F(xiàn)lash 模型的成本不能只看單次 Token 單價(jià)。

DeepSeek V4 Flash 的單次 Token 成本確實(shí)更低，這一點(diǎn)很有優(yōu)勢(shì)。但放到 Agent 場(chǎng)景里，真正影響成本的還有另一個(gè)變量：失敗后的重試成本。比如工具調(diào)用失敗、代碼錯(cuò)誤反復(fù)修改、頁(yè)面結(jié)構(gòu)不符合預(yù)期、報(bào)告需要人工二次整理，這些都會(huì)變成隱性成本。

我們把Agent的成本拆成兩部分來(lái)看：

總成本 = Token 成本 + 失敗重試成本 + 人工介入成本。

從這幾輪測(cè)試看，Step 3.7 Flash 不是單次調(diào)用最便宜的模型，但它的工具調(diào)用穩(wěn)定性更好，返工更少，最終交付物完成度也更高。因此，如果任務(wù)是高頻、多輪、需要持續(xù)調(diào)用工具的 Agent 執(zhí)行場(chǎng)景，Step 3.7 Flash 的綜合成本未必會(huì)更高，反而可能是更加省心的選擇。

什么時(shí)候選 Step 3.7 Flash

經(jīng)過(guò)上面的案例測(cè)試下來(lái)，大家對(duì)Step 3.7 Flash 應(yīng)該有一個(gè)直觀的感覺(jué)，如果要我給Step 3.7 Flash給一個(gè)定位，我對(duì)它看法是：

它的價(jià)格確實(shí)比DeepSeek更貴一點(diǎn)，上下文比不過(guò) DeepSeek 和 Gemini，但它的工具調(diào)用穩(wěn)定性，接口響應(yīng)速度，前端界面審美還是非常不錯(cuò)的。

它不是再某一個(gè)方面表現(xiàn)最強(qiáng)的模型，也沒(méi)有明顯的短板，它是在當(dāng)前 Flash 模型檔里，在速度、成本、穩(wěn)定性這幾個(gè)維度綜合評(píng)估下來(lái)，在真實(shí)Agent執(zhí)行層優(yōu)先選擇的模型之一。

適合選 Step 3.7 Flash 的場(chǎng)景：

· 需要高頻、多輪、低延遲的 Agent 任務(wù)

· 生產(chǎn)級(jí) coding-agent 工作流，對(duì)速度和穩(wěn)定性都有要求

· 需要多模態(tài)理解，比如截圖轉(zhuǎn)代碼、圖表轉(zhuǎn)結(jié)論

· 預(yù)算敏感，但又不想犧牲太多穩(wěn)定性

Step 3.7 Flash 也有一個(gè)比較明顯的短板，就是它的上下文只有256k。

如果要一次性處理大量代碼庫(kù)、長(zhǎng)文檔，或者需要把很多資料全部塞進(jìn)上下文里，那這個(gè)窗口可能不太夠。這種場(chǎng)景下，DeepSeek V4 Flash 會(huì)更合適。

模型沒(méi)有絕對(duì)的最優(yōu)解，還是要看場(chǎng)景。

最后總結(jié)

真實(shí)項(xiàng)目里，我們不只是追求模型回答得多聰明，而是希望它在一輪又一輪任務(wù)里，穩(wěn)定、可控的執(zhí)行任務(wù)，不要在哪里不停的犯錯(cuò)和返工。

我們做的案例只能給大家一個(gè)參考，真正適合你自己的模型，還是要放到你自己的項(xiàng)目里跑一遍。

繼續(xù)閱讀：

星空人工智能技術(shù)網(wǎng) 倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問(wèn)題，煩請(qǐng)30天內(nèi)提供版權(quán)疑問(wèn)、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時(shí)溝通與處理。！：首頁(yè) > 星空人工智能產(chǎn)業(yè) > AI大模型 » 真實(shí) Agent 任務(wù)里，Step 3.7 Flash 的綜合表現(xiàn)如何

相關(guān)推薦