未來AI手機,蘋果和谷歌選擇走同一條路。
距離WWDC還有兩個月,蘋果的“AI大計劃”也越來越清晰。
四月九日,蘋果發(fā)表了一篇最新論文,發(fā)表了一篇名為Ferret的論文。 新的UI模型。這種模式技術(shù)本身并不復(fù)雜,但它指向的是一場真正的手機AI革命。
2023年,AI如雨后春筍般涌現(xiàn),大家都在猜測生成式AI會給智能產(chǎn)品市場帶來什么變化。甚至懷疑智能手機是否能適應(yīng)AI時代的新互動模式。
Rabittt也因此應(yīng)運而生 R1, AI 許多所謂的AI,比如Pin等等。 native硬件。通過更好地利用AI的交互特性和Agent能力,他們試圖挑戰(zhàn)智能手機的霸權(quán),并以取消手機的方式取代手機。
另一方面,在智能手機的一側(cè),只能使用功能較少的終端模型和可有可無的應(yīng)用進行無力的反擊。它的霸主蘋果甚至一度被認為完全落后于AI時代。
但是現(xiàn)在它回到了主場,并且準(zhǔn)備了一個可能用來面對AI時代的智能手機的答案:AI 手機系統(tǒng)Native。
蘋果發(fā)表了一篇新論文,漏出了它的整個計劃
這次蘋果新發(fā)布的Ferret UI基于蘋果的Ferret多模式模型。
與其他多模式模型相比,F(xiàn)erret在發(fā)布時展示的主要優(yōu)勢是對圖像具體區(qū)域定位點的認知遠強于其他多模式模型,包括GPT-4 ROI。
在這個模型中,蘋果提出了一個視覺采樣器和語言模型,具有圖像編碼器和空間感知。(LLM)新結(jié)構(gòu)。它有能力處理不同形狀之間的稀疏差異,因此可以區(qū)分來自區(qū)域的形狀(如點、線和框架)。客戶可以根據(jù)畫面中的具體區(qū)域與大模型進行更深入的對話。
Ferret在10月份剛剛發(fā)布的時候,業(yè)界對它的反應(yīng)并不熱烈。首先,它的區(qū)域識別優(yōu)勢不是當(dāng)時大型模型領(lǐng)域最關(guān)心的問題。其次,它只有7B和13B2個尺寸,與主流大型模型相比太小。10月中旬,硅谷模型公司仍在試卷前后,業(yè)內(nèi)只將其視為蘋果在模型上的試水。
但是隨著Ferret 隨著UI的推出,F(xiàn)erret的定位和目標(biāo)要明確得多:它是蘋果準(zhǔn)備在新IOS上裝載模型的主要模型之一。
Ferret UI所做的就是在手機UI中應(yīng)用Ferret模型已經(jīng)非常強大的圖片區(qū)域識別能力。通過優(yōu)化,可以更好地識別手機應(yīng)用的頁面。并將自然語言翻譯成界面操作點。
簡而言之,當(dāng)你和AI談到手機頁面的情況時,它可以理解你所說的,并找到具體的元素。
以前,多模態(tài)大模型(MLMM)對手機UI的理解往往會出錯。主要原因如下:
UI界面通常具有較長的縱橫比 ,基于正常圖片(16):9 / 4:第三,大型訓(xùn)練模型不能把握其圖像全景。
并且包含了很多感興趣的小目標(biāo)(如圖標(biāo)和文本),直接應(yīng)用當(dāng)前模型可能會失去對UI界面所需要的重要細節(jié)的理解。
為了解決UI不常見的問題,F(xiàn)erret 在Ferret模型的基礎(chǔ)上,UI在其上集成了"any resolution"(anyres)技術(shù)可以靈活適應(yīng)各種屏幕縱橫比。整個過程如下:
如果UI界面很大,那么就把它分成幾個小的子圖像,以便更好地捕捉UI頁面的細節(jié)特征。
為了獲得最大的信息度,所有劃分的子圖像都使用相同的圖像編碼器進行獨立編碼。
最后,將這些子圖像的特征和全局圖像的特征輸入核心大語言模型。(LLM)中。

最后,F(xiàn)erret以這種“用放大鏡觀察”的方式結(jié)束。 UI模型能更好地捕捉到UI頁面的詳細信息。
處理第二個問題比較簡單,缺乏數(shù)據(jù)無法識別, 然后在訓(xùn)練階段狂喂相關(guān)數(shù)據(jù)。
Ferret UI收集了圖標(biāo)識別、文本搜索、組件目錄等各種初級UI任務(wù)訓(xùn)練數(shù)據(jù)。這些任務(wù)數(shù)據(jù)訓(xùn)練模型準(zhǔn)確定位和理解UI組件。同時,它還收集了與AI交互相關(guān)的高級任務(wù)數(shù)據(jù),包括詳細的解釋、感知/交互對話和功能推理,以提高模型和UI相關(guān)的推理能力。
經(jīng)過這種UI訓(xùn)練,最終的結(jié)果是,13B的Ferret 在完成初級和高級UI對話后,UI的能力超過了GPT44在iPhone環(huán)境中的初級UI任務(wù)。-V,整個任務(wù)的平均分,包括高級任務(wù),非常相似。雖然Ferret在安卓環(huán)境下。 雖然UI表現(xiàn)稍差,但這對蘋果有什么關(guān)系呢?
體驗Ferret 升級UI,F(xiàn)erret模型可以完成簡單的定位任務(wù)。(Referring Tasks):識別UI的外框、圖標(biāo)和文本內(nèi)容。識別任務(wù)(Grounding Tasks):對UI進行相關(guān)查詢,模型需要在頁面上定位并標(biāo)注相關(guān)元素。
同時,它還可以完成更復(fù)雜、更詳細地解釋UI組成的任務(wù);根據(jù)UI與用戶的感知對話和互動對話,可以告訴用戶對應(yīng)位置的具體UI內(nèi)容,以及如何與UI互動的任務(wù);以及根據(jù)UI元素推斷該軟件功能的功能推理任務(wù)。
這意味著Ferret 對于手機應(yīng)用的功能,UI已經(jīng)建立了相對完整的操作理解。并且是對GPT4級別的理解。
假如僅僅停留在理解這一層面,F(xiàn)erret 事實上,UI的應(yīng)用是有限的。舉例來說,視障用戶可以通過語言交互來了解UI的位置,或者整合到蘋果自己的圖形識別系統(tǒng)中來提高識別能力。
但是,如果這種理解與Agent的功能相結(jié)合,讓Ferret UI模型可以去基于用戶的自然語言交互操作手機,那個AI模型 手機系統(tǒng)原型Native誕生了。
AI Native 移動電話而非AI 手機
在過去的一年里,如何將AI模型應(yīng)用于手機已經(jīng)成為芯片制造商和手機制造商最重要的問題。AI手機的概念層出不窮。然而,直到現(xiàn)在,芯片制造商和手機制造商展示的AI模型能力仍然停留在手機系統(tǒng)之外。
一種方法是硬塞一個大模型進入,由云或當(dāng)?shù)赜嬎懵黍?qū)動。它的感覺和Kimi助手,GPT app沒有本質(zhì)區(qū)別,最多可以在手機上讀取相應(yīng)的數(shù)據(jù),應(yīng)用起來比較方便。

另一種方法是在其預(yù)裝應(yīng)用中賦能AI能力,轉(zhuǎn)化為法術(shù)修圖、短信回復(fù)一鍵生成一定程度上無需大模型即可實現(xiàn)的功能。
這種應(yīng)用方式使AI手機這一概念顯得不倫不類,更像是一款安裝了AI大型應(yīng)用的手機。
而且真正能應(yīng)付來勢洶洶的AI新硬件,至少應(yīng)該是一個完全適應(yīng)AI新交互的手機系統(tǒng)。
現(xiàn)在的Ferret UI的出現(xiàn),促使這一事件成為可能。
一個14B以下的大模型,可以直接在手機本地運行,可以讓你用自然語言控制UI并進行相關(guān)操作。如果這個功能集成在Siri上,那么Siri就可以成為所有應(yīng)用程序的新入口,你可以用一句話控制手機的所有功能和所有應(yīng)用程序的所有相關(guān)功能。這實際上與Rabitt相關(guān) R1的想法是一樣的。
而這一次,你不必犧牲屏幕本身。體驗Humane 的AI 在Pin和其他AI智能產(chǎn)品中,雖然他們可以通過自然語言完成大部分的交互,但他們沒有屏幕。沒有屏幕對于生活在視頻時代的人來說幾乎是無法忍受的。此外,聲音以外的交互技術(shù)的缺乏也讓他們在你對面有人的時候不好意思使用。
但是如果手機能夠?qū)崿F(xiàn)這種互動,并且有屏幕的話。為什麼我們還需要一款新的所謂AI智能產(chǎn)品來完成這一切?
所以,跌跌撞撞一年后,蘋果應(yīng)該找到了AI。 手機的真誠。如果情況順利,也許我們可以在兩個月后的WWDC上看到原生AI的蘋果手機系統(tǒng)。而且很可能是第一個 AI 手機系統(tǒng)。
Google和蘋果,一場新的競爭正式比賽
也許,是因為蘋果在系統(tǒng)上的老對頭谷歌,實際上做出了同樣的路線判斷。
谷歌在半個月前的3月19日發(fā)布了一款新的ScreenAI模型,它與Ferrett有關(guān) 就像UI一樣,都是直指 UI 理解多模態(tài)模型。其結(jié)構(gòu)相對簡單,基于Pali,包括兩個組成部分,一個視覺變換器。 (ViT),用于理解UI視覺;T5圖形編碼器,用于相應(yīng)客戶提問的文字圖像信息。
為了解決UI問題,谷歌的操作和蘋果基本沒有區(qū)別。它將UI界面分成5*7塊來識別細節(jié),并利用UI相關(guān)的訓(xùn)練集來增強對UI元素的認知。
盡管沒有像蘋果那樣與GPT4進行比較,但是它也與自己的Geminini相比。 Ultra對UI任務(wù)進行了檢查,也差不多。值得注意的是,ScreenAI比蘋果的Ferret小,只有不到5B。谷歌還試圖用ScreenAI串聯(lián) 完成高級UI任務(wù)的Palm2足以超越Geminini。 Ultra。
因此,2024年春天,智能手機OS的兩大霸主并肩站在AI手機上。比AI更強的谷歌和比系統(tǒng)更強的蘋果走到了同一起跑線上。
如今的問題,只剩下誰跑得快了。
谷歌 I / 五月十四日,蘋果的WWDC在六月舉行了O大會。爭分奪秒的戰(zhàn)爭已經(jīng)開始。
本文來自微信微信官方賬號“騰訊科技”(ID:qqtech),作者:郝博陽,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com





