欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

未來AI手機，蘋果和谷歌選擇走同一條路。

2024-04-17

距離WWDC還有兩個月，蘋果的“AI大計劃”也越來越清晰。

四月九日，蘋果發(fā)表了一篇最新論文，發(fā)表了一篇名為Ferret的論文。新的UI模型。這種模式技術(shù)本身并不復(fù)雜，但它指向的是一場真正的手機AI革命。

2023年，AI如雨后春筍般涌現(xiàn)，大家都在猜測生成式AI會給智能產(chǎn)品市場帶來什么變化。甚至懷疑智能手機是否能適應(yīng)AI時代的新互動模式。

Rabittt也因此應(yīng)運而生 R1， AI 許多所謂的AI，比如Pin等等。 native硬件。通過更好地利用AI的交互特性和Agent能力，他們試圖挑戰(zhàn)智能手機的霸權(quán)，并以取消手機的方式取代手機。

另一方面，在智能手機的一側(cè)，只能使用功能較少的終端模型和可有可無的應(yīng)用進行無力的反擊。它的霸主蘋果甚至一度被認為完全落后于AI時代。

但是現(xiàn)在它回到了主場，并且準(zhǔn)備了一個可能用來面對AI時代的智能手機的答案：AI 手機系統(tǒng)Native。

蘋果發(fā)表了一篇新論文，漏出了它的整個計劃

這次蘋果新發(fā)布的Ferret UI基于蘋果的Ferret多模式模型。

與其他多模式模型相比，F(xiàn)erret在發(fā)布時展示的主要優(yōu)勢是對圖像具體區(qū)域定位點的認知遠強于其他多模式模型，包括GPT-4 ROI。

在這個模型中，蘋果提出了一個視覺采樣器和語言模型，具有圖像編碼器和空間感知。（LLM）新結(jié)構(gòu)。它有能力處理不同形狀之間的稀疏差異，因此可以區(qū)分來自區(qū)域的形狀(如點、線和框架)。客戶可以根據(jù)畫面中的具體區(qū)域與大模型進行更深入的對話。

Ferret在10月份剛剛發(fā)布的時候，業(yè)界對它的反應(yīng)并不熱烈。首先，它的區(qū)域識別優(yōu)勢不是當(dāng)時大型模型領(lǐng)域最關(guān)心的問題。其次，它只有7B和13B2個尺寸，與主流大型模型相比太小。10月中旬，硅谷模型公司仍在試卷前后，業(yè)內(nèi)只將其視為蘋果在模型上的試水。

但是隨著Ferret 隨著UI的推出，F(xiàn)erret的定位和目標(biāo)要明確得多:它是蘋果準(zhǔn)備在新IOS上裝載模型的主要模型之一。

Ferret UI所做的就是在手機UI中應(yīng)用Ferret模型已經(jīng)非常強大的圖片區(qū)域識別能力。通過優(yōu)化，可以更好地識別手機應(yīng)用的頁面。并將自然語言翻譯成界面操作點。

簡而言之，當(dāng)你和AI談到手機頁面的情況時，它可以理解你所說的，并找到具體的元素。

以前，多模態(tài)大模型（MLMM）對手機UI的理解往往會出錯。主要原因如下：

UI界面通常具有較長的縱橫比，基于正常圖片(16):9 / 4:第三，大型訓(xùn)練模型不能把握其圖像全景。

并且包含了很多感興趣的小目標(biāo)(如圖標(biāo)和文本)，直接應(yīng)用當(dāng)前模型可能會失去對UI界面所需要的重要細節(jié)的理解。

為了解決UI不常見的問題，F(xiàn)erret 在Ferret模型的基礎(chǔ)上，UI在其上集成了"any resolution"(anyres)技術(shù)可以靈活適應(yīng)各種屏幕縱橫比。整個過程如下：

如果UI界面很大，那么就把它分成幾個小的子圖像，以便更好地捕捉UI頁面的細節(jié)特征。

為了獲得最大的信息度，所有劃分的子圖像都使用相同的圖像編碼器進行獨立編碼。

最后，將這些子圖像的特征和全局圖像的特征輸入核心大語言模型。(LLM)中。

最后，F(xiàn)erret以這種“用放大鏡觀察”的方式結(jié)束。 UI模型能更好地捕捉到UI頁面的詳細信息。

處理第二個問題比較簡單，缺乏數(shù)據(jù)無法識別，然后在訓(xùn)練階段狂喂相關(guān)數(shù)據(jù)。

Ferret UI收集了圖標(biāo)識別、文本搜索、組件目錄等各種初級UI任務(wù)訓(xùn)練數(shù)據(jù)。這些任務(wù)數(shù)據(jù)訓(xùn)練模型準(zhǔn)確定位和理解UI組件。同時，它還收集了與AI交互相關(guān)的高級任務(wù)數(shù)據(jù)，包括詳細的解釋、感知/交互對話和功能推理，以提高模型和UI相關(guān)的推理能力。

經(jīng)過這種UI訓(xùn)練，最終的結(jié)果是，13B的Ferret 在完成初級和高級UI對話后，UI的能力超過了GPT44在iPhone環(huán)境中的初級UI任務(wù)。-V，整個任務(wù)的平均分，包括高級任務(wù)，非常相似。雖然Ferret在安卓環(huán)境下。雖然UI表現(xiàn)稍差，但這對蘋果有什么關(guān)系呢？

體驗Ferret 升級UI，F(xiàn)erret模型可以完成簡單的定位任務(wù)。(Referring Tasks):識別UI的外框、圖標(biāo)和文本內(nèi)容。識別任務(wù)(Grounding Tasks):對UI進行相關(guān)查詢，模型需要在頁面上定位并標(biāo)注相關(guān)元素。

同時，它還可以完成更復(fù)雜、更詳細地解釋UI組成的任務(wù)；根據(jù)UI與用戶的感知對話和互動對話，可以告訴用戶對應(yīng)位置的具體UI內(nèi)容，以及如何與UI互動的任務(wù)；以及根據(jù)UI元素推斷該軟件功能的功能推理任務(wù)。

這意味著Ferret 對于手機應(yīng)用的功能，UI已經(jīng)建立了相對完整的操作理解。并且是對GPT4級別的理解。

假如僅僅停留在理解這一層面，F(xiàn)erret 事實上，UI的應(yīng)用是有限的。舉例來說，視障用戶可以通過語言交互來了解UI的位置，或者整合到蘋果自己的圖形識別系統(tǒng)中來提高識別能力。

但是，如果這種理解與Agent的功能相結(jié)合，讓Ferret UI模型可以去基于用戶的自然語言交互操作手機，那個AI模型手機系統(tǒng)原型Native誕生了。

AI Native 移動電話而非AI 手機

在過去的一年里，如何將AI模型應(yīng)用于手機已經(jīng)成為芯片制造商和手機制造商最重要的問題。AI手機的概念層出不窮。然而，直到現(xiàn)在，芯片制造商和手機制造商展示的AI模型能力仍然停留在手機系統(tǒng)之外。

一種方法是硬塞一個大模型進入，由云或當(dāng)?shù)赜嬎懵黍?qū)動。它的感覺和Kimi助手，GPT app沒有本質(zhì)區(qū)別，最多可以在手機上讀取相應(yīng)的數(shù)據(jù)，應(yīng)用起來比較方便。

另一種方法是在其預(yù)裝應(yīng)用中賦能AI能力，轉(zhuǎn)化為法術(shù)修圖、短信回復(fù)一鍵生成一定程度上無需大模型即可實現(xiàn)的功能。

這種應(yīng)用方式使AI手機這一概念顯得不倫不類，更像是一款安裝了AI大型應(yīng)用的手機。

而且真正能應(yīng)付來勢洶洶的AI新硬件，至少應(yīng)該是一個完全適應(yīng)AI新交互的手機系統(tǒng)。

現(xiàn)在的Ferret UI的出現(xiàn)，促使這一事件成為可能。

一個14B以下的大模型，可以直接在手機本地運行，可以讓你用自然語言控制UI并進行相關(guān)操作。如果這個功能集成在Siri上，那么Siri就可以成為所有應(yīng)用程序的新入口，你可以用一句話控制手機的所有功能和所有應(yīng)用程序的所有相關(guān)功能。這實際上與Rabitt相關(guān) R1的想法是一樣的。

而這一次，你不必犧牲屏幕本身。體驗Humane 的AI 在Pin和其他AI智能產(chǎn)品中，雖然他們可以通過自然語言完成大部分的交互，但他們沒有屏幕。沒有屏幕對于生活在視頻時代的人來說幾乎是無法忍受的。此外，聲音以外的交互技術(shù)的缺乏也讓他們在你對面有人的時候不好意思使用。

但是如果手機能夠?qū)崿F(xiàn)這種互動，并且有屏幕的話。為什麼我們還需要一款新的所謂AI智能產(chǎn)品來完成這一切？

所以，跌跌撞撞一年后，蘋果應(yīng)該找到了AI。手機的真誠。如果情況順利，也許我們可以在兩個月后的WWDC上看到原生AI的蘋果手機系統(tǒng)。而且很可能是第一個 AI 手機系統(tǒng)。

Google和蘋果，一場新的競爭正式比賽

也許，是因為蘋果在系統(tǒng)上的老對頭谷歌，實際上做出了同樣的路線判斷。

谷歌在半個月前的3月19日發(fā)布了一款新的ScreenAI模型，它與Ferrett有關(guān) 就像UI一樣，都是直指 UI 理解多模態(tài)模型。其結(jié)構(gòu)相對簡單，基于Pali，包括兩個組成部分，一個視覺變換器。 (ViT），用于理解UI視覺；T5圖形編碼器，用于相應(yīng)客戶提問的文字圖像信息。

為了解決UI問題，谷歌的操作和蘋果基本沒有區(qū)別。它將UI界面分成5*7塊來識別細節(jié)，并利用UI相關(guān)的訓(xùn)練集來增強對UI元素的認知。

盡管沒有像蘋果那樣與GPT4進行比較，但是它也與自己的Geminini相比。 Ultra對UI任務(wù)進行了檢查，也差不多。值得注意的是，ScreenAI比蘋果的Ferret小，只有不到5B。谷歌還試圖用ScreenAI串聯(lián) 完成高級UI任務(wù)的Palm2足以超越Geminini。 Ultra。

因此，2024年春天，智能手機OS的兩大霸主并肩站在AI手機上。比AI更強的谷歌和比系統(tǒng)更強的蘋果走到了同一起跑線上。

如今的問題，只剩下誰跑得快了。

谷歌 I / 五月十四日，蘋果的WWDC在六月舉行了O大會。爭分奪秒的戰(zhàn)爭已經(jīng)開始。

本文來自微信微信官方賬號“騰訊科技”（ID:qqtech），作者：郝博陽，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

不要來，整個淄博也沒有串起來。

第一位女CEO屈臣氏迎來

第一季度，頭部代建公司仍在迅速擴張。

整個商場都找不到蹲便，蹲廁真的比坐廁更衛(wèi)生嗎？

為什么國內(nèi)的APP營銷廣告那么多？