欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

iPhone本地運行Gemma4引熱議,零token時代還有多久?

04-07 06:27

本文來自微信公眾號:機器之心,作者:機器之心,原文標題:《iPhone本地跑Gemma 4火了,0 token時代還有多遠?》



谷歌日前開源的新模型Gemma 4,給業(yè)界帶來了不小的驚喜。





該模型采用與Gemini 3同源的技術架構,支持原生全模態(tài),在Arena AI排行榜上位列全球第三,且提供多個型號選擇。其中較小的E2B(有效參數(shù)2.3B)和E4B(有效參數(shù)4.5B)型號可直接在手機端本地部署,上下文窗口達128K,堪稱「可隨身攜帶的Gemini平替」。



模型發(fā)布后迅速成為手機用戶的新寵。



一位X用戶的帖子獲得數(shù)十萬次圍觀,他在視頻中展示了如何在iPhone上本地運行Gemma 4,包括處理圖片、音頻及控制手電筒開關,稱其速度快得驚人,如同魔法。





有人在iPhone 17 Pro上測試了速度,指出若手機搭載蘋果芯片,借助針對該芯片優(yōu)化的MLX(蘋果機器學習框架),模型推理速度可超40 token/秒。





還有人在三星Galaxy上也跑出了相近速度,且是在開啟思考模式的情況下,讓人感嘆「快得不真實」。





這樣的速度讓手機端運行AI模型成為未來可接受的選項,尤其在醫(yī)療等敏感場景中作用顯著。





128k的上下文窗口也讓這些小模型更具吸引力。





具體如何運行呢?其實很簡單,并非極客專屬,因為谷歌推出了官方App——Google AI Edge Gallery。想在手機上體驗的用戶可直接下載該App,選擇并下載想要運行的模型版本,打開即可使用。





而且,作為谷歌官方發(fā)布的應用,安全問題無需過多擔憂。





除了手機端運行的小模型,也有人在更強硬件上嘗試更大版本的Gemma 4,比如在M5 Pro版本的MacBook Pro上運行Gemma 4 Mixture-of-Experts 26B。





直接對話時,該模型速度較快,文本生成、代碼解釋都很流暢。





但將其作為coding agent使用時,問題便顯現(xiàn)出來。因為運行agent需要大上下文(Gemma 4 26B上下文窗口為256k)、復雜prompt和穩(wěn)定的工具調用,Gemma 4在這些方面明顯力不從心,常出現(xiàn)卡住、報錯或輸出結構錯誤的情況。





當他換成qwen3-coder模型后,同樣環(huán)境下文件創(chuàng)建、命令執(zhí)行、多步任務都能正常運行。他認為問題不在agent框架,而在于模型是否針對「工具調用+結構化輸出」做過優(yōu)化。Gemma 4在這方面可能做得不足,也可能是開發(fā)者尚未找到正確用法。





此外,也有人認為Gemma 4的智力水平略顯雞肋。





盡管如此,Gemma 4這類「性能小鋼炮」的出現(xiàn)仍不容忽視。若未來大量日常查詢、聊天、簡單推理、代碼生成、圖像理解任務都能本地運行,無需購買token,那靠賣token的廠商處境豈不是很尷尬?









當然,目前情況尚未如此悲觀,畢竟開源模型與前沿旗艦閉源模型仍有差距,且多數(shù)優(yōu)秀開源模型受硬件能力限制,暫時無法在端側達到可用水平。





但未來趨勢清晰:短期看,云端閉源模型在前沿復雜推理和超大規(guī)模多代理協(xié)作上仍領先;長期而言,隨著硬件進步和量化技術優(yōu)化,端側模型會逐步占據云端的高頻簡單任務。



那些僅靠賣token、賣API訂閱的廠商,將不得不更專注于「真正難啃」的領域——超強Agent、超長可靠上下文,以及需要海量實時數(shù)據的專有能力。



Gemma 4只是一個開端。下一個驚喜或許是某款端側模型在日常使用中讓用戶完全感受不到「本地」與「云端」的區(qū)別。當那一天到來,整個AI產業(yè)商業(yè)模式將迎來真正的洗牌。


本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。

免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com