97视频在线观看免费高清完整版在线观看-69精品人人人人-爱的色放3-亚洲黄色一区-亚洲精品视频免费在线观看-男人天堂免费视频-久久久社区-日韩综合一区二区-色撸撸在线-蝌蚪av-国产乱淫视频-男生尿隔着内裤呲出来视频-人操人操-欧美鲁鲁-免费视频99-3级av-中国一级大黄大黄大色毛片-久久久欧美精品-99精品在线看-色峰视频-印度毛茸茸-国产福利毛片-国产极品999-69日韩-天天综合网国产

星空人工智能技術(shù)網(wǎng)

真實(shí) Agent 任務(wù)里,Step 3.7 Flash 的綜合表現(xiàn)如何

 模型圈一直都很熱鬧,每月都有各種新的模型出來(lái)。

最近一個(gè)月,國(guó)產(chǎn)大模型不斷推出新模型,Step 3.7 Flash、MiniMax M3、GLM-5.2、Kimi K2.7 Code幾乎都是前后腳發(fā)布。

我仔細(xì)研究了一下這幾個(gè)新的模型,它們的路子還有點(diǎn)不一樣,Step 3.7 Flash主攻性價(jià)比和低延遲,MiniMax M3死磕超長(zhǎng)上下文和Agentic Workflow,GLM-5.2走通用開源路線,Kimi K2.7 Code 則專門服務(wù)編程場(chǎng)景。

目前來(lái)看,模型發(fā)展有個(gè)趨勢(shì)非常明顯:大模型競(jìng)爭(zhēng)已經(jīng)不單是拼誰(shuí)性能最好,推理能力最強(qiáng),現(xiàn)在都在往Agent方向發(fā)力,在高頻使用場(chǎng)景里,看誰(shuí)家的模型好用、穩(wěn)定,性價(jià)比更高。

以前我們?cè)诹腇lash模型,都覺(jué)得它是Pro版的廉價(jià)替代品,沒(méi)有什么用。復(fù)雜的交給Pro,簡(jiǎn)單不重要的扔給Flash,F(xiàn)lash就是個(gè)省錢選項(xiàng)。

現(xiàn)在來(lái)看,情況有些不一樣了。Flash模型已經(jīng)不再是我們常說(shuō)的備胎了,它已經(jīng)是一個(gè)單獨(dú)的品類,而且各個(gè)模型廠商都在推出這類模型。

目前我們可以簡(jiǎn)單地把模型分成二檔。

第一種是Pro檔。主打一個(gè)極限推理、復(fù)雜編程和長(zhǎng)鏈條Agent任務(wù),像Claude Opus 4.8和GPT-5.5就屬于這類。它們?cè)诟唠y度評(píng)測(cè)集上得分都很高,但是它的價(jià)格也是很高,稍微搞一些高頻任務(wù),賬單就有點(diǎn)受不了。

第二種可以叫Flash檔,或者效率前沿。Step 3.7 Flash、DeepSeek V4 Flash、Gemini 3.5 Flash、Qwen3.6 Flash都在這個(gè)陣營(yíng),這類模型不追求單項(xiàng)能力很強(qiáng),而是在高頻、多輪、低延遲、大規(guī)模使用的的場(chǎng)景里,在速度、成本、上下文長(zhǎng)度和穩(wěn)定性之間找到一個(gè)平衡。

尤其是在 Agent 場(chǎng)景里,F(xiàn)lash 模型承擔(dān)的角色越來(lái)越像執(zhí)行層模型,它不一定是負(fù)責(zé)最極限的推理模型,但要負(fù)責(zé)大量實(shí)際任務(wù)的拆解、工具調(diào)用、代碼生成、錯(cuò)誤修復(fù)和結(jié)果整理。

所以判斷一個(gè) Flash 模型好不好,不能只看 benchmark 測(cè)評(píng),也不能簡(jiǎn)單的看單次問(wèn)答,而要看它在真實(shí)任務(wù)里是否穩(wěn)定、少犯錯(cuò)誤少返工、是否能把任務(wù)一次性跑完。

今天我們就先拿Step 3.7 Flash來(lái)試試,把它和其他幾款Flash模型放在一起,用真實(shí)項(xiàng)目從代碼生成效率、響應(yīng)速度與成本、工具調(diào)用穩(wěn)定性三個(gè)角度挨個(gè)跑一遍,看看到底誰(shuí)更好用。

測(cè)試方法

我們這邊使用Claude code 來(lái)測(cè)試,測(cè)試的模型比較多,我們可以安裝cc switch,配置好各個(gè)模型廠商后可以一鍵切換,非常方便。

也可以通過(guò)修改json配置文件來(lái)切換模型 ~/.claude/settings.json,例如 Step 3.7 Flash 的配置

ec2a410d-0704-4ec1-82c9-6890a6b2a1a8.png

這里也提前說(shuō)明一下,這篇不是特別嚴(yán)謹(jǐn)?shù)?benchmark,更像是我自己拿幾個(gè)真實(shí)任務(wù)跑了一圈,看看模型真實(shí)干活的時(shí)表現(xiàn)如何。

因?yàn)閷?shí)際測(cè)試的時(shí)候,不同模型能用的工具鏈并不完全一樣。Step 3.7 Flash、DeepSeek V4 Flash、Qwen3.6 Flash,我主要是在 Claude Code 里跑, Gemini 3.5 Flash,我這邊只能放到 Google Antigravity 里面測(cè)試。

所以后面看到時(shí)間、Token、報(bào)錯(cuò)次數(shù)這些數(shù)據(jù),大家不要直接理解成排行榜。我們不是要證明誰(shuí)是第一,而是想看看,在真實(shí) Agent 任務(wù)里,誰(shuí)更穩(wěn)定、少犯錯(cuò)、最后交出來(lái)的東西是一個(gè)能用的成品。

案例測(cè)試

案例一:從零搭建開發(fā)者日志站

這個(gè)案例我們主要對(duì)比下 Step 3.7 Flash 和 DeepSeek V4 Flash 這個(gè)兩個(gè)模型

我直接把下面這段 prompt 丟給 Claude Code,兩個(gè)模型各跑一次:

這個(gè)任務(wù)不算特別難,模型需要理解技術(shù)棧要求,搭 Next.js 項(xiàng)目結(jié)構(gòu),配置 Markdown 解析,寫列表頁(yè)和詳情頁(yè),加標(biāo)簽篩選和語(yǔ)法高亮,還要生成 5 篇像樣的示例日志。

中間任何一個(gè)步驟出錯(cuò),就可能導(dǎo)致項(xiàng)目跑不起來(lái)、頁(yè)面功能不完整,或者前端顯示不太好

我們先來(lái)看下 deepseek-v4-flash的效果

頁(yè)面上總體功能都符合需求,模型一輪就給出了結(jié)果,沒(méi)有讓我們多次提示,中間執(zhí)行過(guò)程中,模型在編譯的時(shí)候遇到了3次錯(cuò)誤,都是自己修復(fù),最后給出的是一個(gè)可用的網(wǎng)頁(yè)成品。

再來(lái)看看 Step 3.7 Flash 的效果

這個(gè)頁(yè)面同樣是一輪生成,布局上采用了卡片式網(wǎng)格結(jié)構(gòu),每篇文章以標(biāo)題、描述和標(biāo)簽組合展示,點(diǎn)擊卡片進(jìn)入詳情頁(yè)。相比DeepSeek V4 Flash偏列表化的信息陳列,Step 3.7 Flash生成的頁(yè)面更強(qiáng)調(diào)視覺(jué)層級(jí),導(dǎo)航欄固定了分類篩選,交互上更貼近成熟的博客系統(tǒng),整體觀感更加規(guī)整。

這兩個(gè)網(wǎng)頁(yè),你們更喜歡那種風(fēng)格,我是更加傾向 step-3.7-flash這種。

看完效果,我們來(lái)看下,時(shí)間,成本的消耗,我做了個(gè)對(duì)比圖

32ab902d-d062-4474-a8c6-eeee324b1916.png

從圖中可以看出,兩個(gè)模型的輸入token基本上差不多,Step 3.7 Flash 的模型輸出要多很多,難道是這個(gè)原因,導(dǎo)致效果要好一點(diǎn)嗎,API消耗的時(shí)間也沒(méi)有多大的差距,成本上deepseek確實(shí)更加便宜,從API定價(jià)來(lái)看,國(guó)內(nèi)外 好像也沒(méi)那個(gè)模型能夠和deepseek比。

案例二:GitHub 項(xiàng)目雷達(dá)

我們來(lái)看看 Step 3.7 Flash 和 Gemini 3.5 Flash 對(duì)比表現(xiàn)如何

提示詞如下:

c09c2a65-ea5c-4721-ad41-5d31ca1df695.png

我們先看下Gemini 3.5 Flash的效果,直接把提示詞給到 google Antigravity

任務(wù)是一次性完成,雖然說(shuō)中間有2個(gè)工具報(bào)錯(cuò),都是模型自動(dòng)修復(fù),沒(méi)有人工介入,最后給出了一個(gè)完整可運(yùn)行的腳本和頁(yè)面。

Gemini 這次任務(wù)完成度沒(méi)有問(wèn)題,但頁(yè)面組織比較松散,信息密度和視覺(jué)層級(jí)不太友好。

我們?cè)趤?lái)看 Step 3.7 Flash 的效果,把相同的提示詞給到claude code

任務(wù)頁(yè)是一次性完成,中間沒(méi)有發(fā)生任何錯(cuò)誤,給出了一個(gè)完整可運(yùn)行的腳本和頁(yè)面。

頁(yè)面采用了卡片式的布局,每個(gè)卡片清晰呈現(xiàn)項(xiàng)目名稱、簡(jiǎn)短描述、編程語(yǔ)言、Star總數(shù)及本周增量。信息密度適中,視覺(jué)層次分明。稍顯不足的是分類導(dǎo)航?jīng)]有固定在頂部,需要滾動(dòng)到對(duì)應(yīng)區(qū)域才能看到其他分類。但整體排版、字體和間距控制都比較舒適,Step 3.7 Flash 更接近一個(gè)可交付的看板頁(yè)面。

這輪任務(wù)中,Step 3.7 Flash 一共消耗 406.5k input tokens 和 18.7k output tokens,沒(méi)有緩存命中。執(zhí)行時(shí)間上,API 時(shí)間為 2 分 25 秒,完整 Wall 時(shí)間為 4 分 45 秒。按 Step 3.7 Flash 官方價(jià)格估算,這次任務(wù)成本約 0.7 元人民幣

Gemini 3.5 Flash 的消耗不好查看,沒(méi)有記錄可以查看的地方,時(shí)間消耗兩邊都差不多,在3分鐘左右,這邊只顯示了額度被消耗了28%,無(wú)法查看token的一個(gè)具體消耗。

案例三:源碼解讀

寫代碼只是 Coding Agent 的一部分。

另外一個(gè)高頻的場(chǎng)景是讀代碼,這個(gè)是我們經(jīng)常遇到的事情,接手一個(gè)陌生項(xiàng)目、理解一個(gè)開源庫(kù)、分析一個(gè)框架的核心鏈路,然后把它轉(zhuǎn)成團(tuán)隊(duì)能讀懂的文檔。

所以第三個(gè)案例我選了一個(gè)源碼解讀,讓它階段源碼,給出輸出一個(gè)html的頁(yè)面,這個(gè)源碼解讀,需要多輪工具調(diào)用,我們可以看看它們?cè)诙噍喒ぞ哒{(diào)用上的表現(xiàn)如何。

提示詞如下

8f72970e-5059-469e-aabd-8af2d6c2bdc0.png

42d7e2c5-2407-4809-816d-243e91597f0e.png

636c8a74-cd90-47e9-bb33-d0b69b28117e.png

61e37c7e-9a8d-48f2-9417-eb0d3fe5d8a3.png

我們先來(lái)看下Qwen3.6 Flash的效果

在執(zhí)行過(guò)程中,發(fā)生了多次工具調(diào)用失敗的場(chǎng)景,不過(guò)Agent最后都做了修復(fù),一次對(duì)話就完成了任務(wù)

總體來(lái)說(shuō)效果還是可以的,按照我們給的需求完成了任務(wù),對(duì)memo0這個(gè)記憶架構(gòu)框架的源碼總結(jié)也比較到位

再來(lái)看看 Step 3.7 Flash 的效果如何

在執(zhí)行過(guò)程中,沒(méi)有發(fā)生工具調(diào)用錯(cuò)誤,一次性完成了所有任務(wù),和Qwen3.6 Flash 相比,差異不是很大,就是左邊多了一個(gè)導(dǎo)航菜單,可以直接點(diǎn)擊快速定位到想看的目錄。

看完效果,我們來(lái)看下,時(shí)間,成本的消耗,我簡(jiǎn)單做了個(gè)對(duì)比的表格,大家可以自己看下。

7f8ecbed-d1be-4764-87fc-b39dd135447d.png

幾輪測(cè)試后的橫向?qū)Ρ?/span>

e57b18ae-2f0b-4bfd-b0d6-2f28f90f53f6.png

從這張表里可以看出,F(xiàn)lash 模型的成本不能只看單次 Token 單價(jià)。

DeepSeek V4 Flash 的單次 Token 成本確實(shí)更低,這一點(diǎn)很有優(yōu)勢(shì)。但放到 Agent 場(chǎng)景里,真正影響成本的還有另一個(gè)變量:失敗后的重試成本。比如工具調(diào)用失敗、代碼錯(cuò)誤反復(fù)修改、頁(yè)面結(jié)構(gòu)不符合預(yù)期、報(bào)告需要人工二次整理,這些都會(huì)變成隱性成本。

我們把Agent的成本拆成兩部分來(lái)看:

總成本 = Token 成本 + 失敗重試成本 + 人工介入成本。

從這幾輪測(cè)試看,Step 3.7 Flash 不是單次調(diào)用最便宜的模型,但它的工具調(diào)用穩(wěn)定性更好,返工更少,最終交付物完成度也更高。因此,如果任務(wù)是高頻、多輪、需要持續(xù)調(diào)用工具的 Agent 執(zhí)行場(chǎng)景,Step 3.7 Flash 的綜合成本未必會(huì)更高,反而可能是更加省心的選擇。

什么時(shí)候選 Step 3.7 Flash

經(jīng)過(guò)上面的案例測(cè)試下來(lái),大家對(duì)Step 3.7 Flash 應(yīng)該有一個(gè)直觀的感覺(jué), 如果要我給Step 3.7 Flash給一個(gè)定位,我對(duì)它看法是:

它的價(jià)格確實(shí)比DeepSeek更貴一點(diǎn),上下文比不過(guò) DeepSeek 和 Gemini,但它的工具調(diào)用穩(wěn)定性,接口響應(yīng)速度,前端界面審美還是非常不錯(cuò)的。

它不是再某一個(gè)方面表現(xiàn)最強(qiáng)的模型,也沒(méi)有明顯的短板,它是在當(dāng)前 Flash 模型檔里,在速度、成本、穩(wěn)定性這幾個(gè)維度綜合評(píng)估下來(lái),在真實(shí)Agent執(zhí)行層優(yōu)先選擇的模型之一。

適合選 Step 3.7 Flash 的場(chǎng)景:

· 需要高頻、多輪、低延遲的 Agent 任務(wù)

· 生產(chǎn)級(jí) coding-agent 工作流,對(duì)速度和穩(wěn)定性都有要求

· 需要多模態(tài)理解,比如截圖轉(zhuǎn)代碼、圖表轉(zhuǎn)結(jié)論

· 預(yù)算敏感,但又不想犧牲太多穩(wěn)定性

Step 3.7 Flash 也有一個(gè)比較明顯的短板,就是它的上下文只有256k。

如果要一次性處理大量代碼庫(kù)、長(zhǎng)文檔,或者需要把很多資料全部塞進(jìn)上下文里,那這個(gè)窗口可能不太夠。這種場(chǎng)景下,DeepSeek V4 Flash  會(huì)更合適。

模型沒(méi)有絕對(duì)的最優(yōu)解,還是要看場(chǎng)景。

最后總結(jié)

真實(shí)項(xiàng)目里,我們不只是追求模型回答得多聰明,而是希望它在一輪又一輪任務(wù)里,穩(wěn)定、可控的執(zhí)行任務(wù),不要在哪里不停的犯錯(cuò)和返工。

我們做的案例只能給大家一個(gè)參考,真正適合你自己的模型,還是要放到你自己的項(xiàng)目里跑一遍。

星空人工智能技術(shù)網(wǎng) 倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問(wèn)題,煩請(qǐng)30天內(nèi)提供版權(quán)疑問(wèn)、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時(shí)溝通與處理。!:首頁(yè) > 星空人工智能產(chǎn)業(yè) > AI大模型 » 真實(shí) Agent 任務(wù)里,Step 3.7 Flash 的綜合表現(xiàn)如何

感覺(jué)不錯(cuò),很贊哦! ()
分享到:

相關(guān)推薦

留言與評(píng)論(共有 0 條評(píng)論)
   
驗(yàn)證碼: