實(shí)測(cè)Step3.7 Flash:一文看懂多模態(tài)Agent真的能做哪些事
本文來(lái)自微信公眾號(hào): 葉小釵 ,作者:葉小釵
最近新出的Step 3.7 Flash多模態(tài)Agent能力怎么樣?我實(shí)際跑了一遍測(cè)試,帶大家看看它到底能完成哪些真實(shí)任務(wù)。首先我們先測(cè)試最基礎(chǔ)的圖像識(shí)別能力,測(cè)試用到的原圖如下:


測(cè)試結(jié)果很直觀,基礎(chǔ)的圖像識(shí)別任務(wù)它完成得很順暢,沒(méi)有出現(xiàn)識(shí)別錯(cuò)誤或者內(nèi)容偏差的問(wèn)題。既然圖像識(shí)別沒(méi)問(wèn)題,我們就可以順著這個(gè)能力走完全流程:直接讓它根據(jù)識(shí)別到的產(chǎn)品信息制作一份產(chǎn)品介紹頁(yè),更貼近實(shí)際的使用場(chǎng)景。
搭建產(chǎn)品介紹頁(yè)

從生成的結(jié)果能看出來(lái),它完全是按照提示詞的要求生成產(chǎn)品介紹網(wǎng)站的。網(wǎng)站整體的配色和產(chǎn)品本身的主題色匹配度很高,視覺(jué)風(fēng)格非常統(tǒng)一融洽,甚至還主動(dòng)加上了前端動(dòng)效提升交互感,整個(gè)頁(yè)面的完整度超出預(yù)期。
測(cè)試長(zhǎng)鏈條Agent任務(wù)
接下來(lái)我們測(cè)試多步驟長(zhǎng)任務(wù),我給的任務(wù)提示詞如下:

這個(gè)任務(wù)要求并不簡(jiǎn)單:首先需要聯(lián)網(wǎng)搜索獲取目標(biāo)數(shù)據(jù),接著把整理好的數(shù)據(jù)做成一份完整的Word報(bào)告,最后還要把報(bào)告內(nèi)容轉(zhuǎn)化成可視化網(wǎng)頁(yè)。這次我用到了Knowledge Site Creator技能,這個(gè)技能本身主打知識(shí)學(xué)習(xí)類場(chǎng)景,非常適合處理這類內(nèi)容向的長(zhǎng)任務(wù)。
這是最終生成的報(bào)告:



能看出來(lái),生成的Word報(bào)告內(nèi)容覆蓋非常全面,不僅做了基礎(chǔ)的數(shù)據(jù)整理,還加入了基礎(chǔ)數(shù)據(jù)分析,并且用表格、柱狀圖來(lái)呈現(xiàn)內(nèi)容,可讀性很強(qiáng),整個(gè)任務(wù)的完成度非常高。
完成Word報(bào)告之后,我們繼續(xù)下一步,把報(bào)告內(nèi)容轉(zhuǎn)化為可視化網(wǎng)頁(yè)。

從Agent生成的網(wǎng)站結(jié)構(gòu)就能發(fā)現(xiàn),Knowledge Site Creator這個(gè)技能天生更適配教育類知識(shí)網(wǎng)站,拿來(lái)做產(chǎn)品介紹也能用,但在知識(shí)內(nèi)容呈現(xiàn)上的優(yōu)勢(shì)要明顯很多。


用這個(gè)技能生成的頁(yè)面,會(huì)自帶很多適合學(xué)習(xí)的功能模塊,比如知識(shí)點(diǎn)卡片、學(xué)習(xí)回顧板塊等等,這些模塊用在知識(shí)內(nèi)容里非常自然,能直接形成完整的學(xué)習(xí)體驗(yàn)。
也正因如此,它非常適合用來(lái)搭建教育類知識(shí)網(wǎng)站。
比如喜歡歷史的用戶,可以用它做一個(gè)歷史知識(shí)點(diǎn)復(fù)習(xí)網(wǎng)站;關(guān)注AI領(lǐng)域的用戶,也可以用它做一個(gè)AI技術(shù)知識(shí)點(diǎn)學(xué)習(xí)站,直接把內(nèi)容生產(chǎn)和內(nèi)容展示銜接在一起,效率提升非常明顯。
舉個(gè)實(shí)際的例子,把下面這段提示詞發(fā)給Agent:
聯(lián)網(wǎng)搜索,調(diào)研Agent調(diào)用相關(guān)的能力發(fā)展和應(yīng)用,盡量從權(quán)威的機(jī)構(gòu)或者信息源進(jìn)行獲取。包括技術(shù)博主,行業(yè)報(bào)告,AI平臺(tái)資料,官方的技術(shù)文檔等等。重點(diǎn)梳理Agent從單輪問(wèn)答到工具的調(diào)用,多任務(wù)執(zhí)行,工作流的編排。分析核心能力,應(yīng)用場(chǎng)景,未來(lái)趨勢(shì)這些。
首先給我一份3000字的word的報(bào)告,要求結(jié)果清晰,內(nèi)容完整,語(yǔ)言專業(yè)具有易讀性。分析上述的這些問(wèn)題。
然后調(diào)用,Knowledge Site Creator Skills,利用這個(gè)技能制作一份知識(shí)學(xué)習(xí)網(wǎng)站,網(wǎng)頁(yè)制作參考技能中的說(shuō)明,包括首頁(yè),Agent調(diào)用,發(fā)展時(shí)間線,核心技術(shù)架構(gòu)等等。
發(fā)送提示詞之后只需要等待幾分鐘,就能得到下面這樣的成品網(wǎng)頁(yè):

一個(gè)完整的可視化知識(shí)學(xué)習(xí)網(wǎng)站就搭建完成了,這個(gè)技能確實(shí)完美適配這類知識(shí)網(wǎng)頁(yè)的制作需求。

看完了內(nèi)容類任務(wù),那這個(gè)新模型實(shí)際處理編程任務(wù)的表現(xiàn)怎么樣呢?我們接著測(cè)試。
編程開發(fā)任務(wù)測(cè)試
我之前做過(guò)一個(gè)AI新聞收集網(wǎng)站,當(dāng)時(shí)只完成了基礎(chǔ)demo,還留了不少問(wèn)題:既有代碼bug,也有頁(yè)面設(shè)計(jì)問(wèn)題,比如配色不統(tǒng)一、布局不協(xié)調(diào)、導(dǎo)航欄UI細(xì)節(jié)粗糙等等。這次我就讓新模型來(lái)修復(fù)這些歷史遺留問(wèn)題。


整個(gè)修復(fù)過(guò)程非常簡(jiǎn)單,只需要用自然語(yǔ)言把需求說(shuō)清楚就可以,比如我只提了一句“把運(yùn)維面板頁(yè)面的配色和布局優(yōu)化一下,參考首頁(yè)的風(fēng)格”,模型就可以準(zhǔn)確理解需求開始修改。

局部?jī)?yōu)化的細(xì)節(jié)就不多說(shuō)了,我們直接加一個(gè)全新功能:如果收集到的AI新聞本身是視頻內(nèi)容,該怎么處理?

我們需要新增一個(gè)視頻講解頁(yè)面,放在正常開發(fā)流程里,頁(yè)面布局、配色、UI設(shè)計(jì)這些工作,一般是產(chǎn)品、UI、前端三個(gè)崗位配合完成,個(gè)人開發(fā)者往往很難同時(shí)搞定這些,這個(gè)時(shí)候就可以讓AI先幫我們出一份前端UI設(shè)計(jì)方案,先把頁(yè)面結(jié)構(gòu)和視覺(jué)方向定下來(lái),方便后續(xù)落地開發(fā)。這是模型生成的前端UI效果參考圖。
我用的提示詞是:
做一個(gè)頁(yè)面做視頻講解的頁(yè)面,需要有視頻的預(yù)覽窗口,點(diǎn)擊視頻分析后右邊彈出窗口進(jìn)行視頻講解的輸出,根據(jù)網(wǎng)頁(yè)的美觀化設(shè)計(jì),幫我設(shè)計(jì)一個(gè)這樣的頁(yè)面圖


確定好需求和設(shè)計(jì)之后,就要讓模型理解整個(gè)項(xiàng)目結(jié)構(gòu)、理清上下文,新增功能:


最終新功能的后端接口被正確創(chuàng)建在了項(xiàng)目對(duì)應(yīng)的Controller文件中,完全符合項(xiàng)目原有的文件結(jié)構(gòu)規(guī)范。


雖然最終生成的頁(yè)面和參考設(shè)計(jì)圖在風(fēng)格上有一點(diǎn)差異,但核心功能已經(jīng)全部實(shí)現(xiàn),剩下的只需要做細(xì)節(jié)優(yōu)化和頁(yè)面打磨就可以。能在這么短的時(shí)間里把核心功能搭建完成,用來(lái)做快速功能驗(yàn)證已經(jīng)完全夠用了。

總結(jié)
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com





