谷歌、李飛飛路徑之外,阿里世界模型「快樂生蠔」開辟新賽道
不久前,一匹神秘的「歡樂馬」突然登頂Artificial Analysis排行榜。
AI領(lǐng)域頓時議論紛紛,直到阿里主動認(rèn)領(lǐng)了這個成果。
沒想到短短幾天,阿里的「Happy」系列又添新成員——HappyOyster(快樂生蠔)。

這兩款產(chǎn)品同出一門,都來自阿里今年3月新成立的Alibaba Token Hub(ATH)創(chuàng)新事業(yè)群。
不過,和「歡樂馬」那種「輸入提示詞、等待渲染、接收成片」的一次性流程不同,HappyOyster是一款能實(shí)時構(gòu)建和交互的開放式世界模型產(chǎn)品。
它基于原生多模態(tài)架構(gòu),背后是支持多模態(tài)輸入與音視頻聯(lián)合生成的流式生成世界模型,在生成過程中能持續(xù)接收用戶指令,畫面實(shí)時響應(yīng)、不斷演繹。

HappyOyster主打漫游(Wander)和導(dǎo)演(Direct)兩大核心功能。
其中漫游功能是首個支持任意風(fēng)格、無限互動的通用世界模型,只需輸入文本或圖像,就能生成可無限探索的世界場景,支持1分鐘以上的實(shí)時位移控制和鏡頭控制。
導(dǎo)演功能則是基于世界模型的實(shí)時AI視頻導(dǎo)演引擎,可連續(xù)生成長達(dá)3分鐘的720p實(shí)時視頻,我們能通過文字指令實(shí)時操控鏡頭、調(diào)度角色、改變劇情走向。
說起這個名字,還有些由來,它借用了莎士比亞的經(jīng)典名言「The world is your oyster.」(世界是你的牡蠣,等待你親手開啟)。
目前,HappyOyster已經(jīng)上線,我們也第一時間拿到了邀請碼,接下來就進(jìn)行上手實(shí)測。
體驗鏈接:https://www.happyoyster.cn/
一手實(shí)測:
阿里這款世界模型頗具新意
先試試主打的漫游(Wander)功能。
該功能支持通過文字或圖片生成世界。
我們既可以直接輸入提示詞,也可以分開設(shè)定「角色(Character)」和「場景(Scene)」進(jìn)行精細(xì)化控制,還能在第一人稱和第三人稱之間切換視角。

比如,我們使用「定制模式」分別輸入:角色設(shè)定為「A stylish blonde female model」,場景設(shè)定為「On the streets of Paris in the 1980s」(一位穿著時髦的金發(fā)女模特,在80年代的巴黎街頭)。
HappyOyster沒有直接輸出一段固定視頻,而是用十幾秒時間構(gòu)建出一個完整的夜晚雨后巴黎街頭,路面積水倒映著昏黃路燈,馬路上汽車疾馳而過,兩邊店鋪林立,細(xì)節(jié)都符合物理規(guī)律。
接下來,我們可以用WASD鍵控制角色前進(jìn)方向,或者用上下左右方向鍵推動鏡頭移動,角色在這個空間里自由游走,最終生成視頻。
整個畫面實(shí)時響應(yīng),全程流暢無卡頓。
系統(tǒng)還自動配上了契合場景氛圍的BGM,音畫同步自然。
我們又上傳了一張動漫風(fēng)格第一視角騎行圖片,HappyOyster基于這張靜態(tài)畫面,生成了一個具有空間結(jié)構(gòu)和運(yùn)動邏輯的完整場景。
視角向前推進(jìn)時,道路延展、花海分布以及遠(yuǎn)處景物的層次變化連貫,沒有明顯的拼接感或跳變。
吉卜力風(fēng)格的視覺語言和櫻花飄落的氛圍,在整個運(yùn)動過程中也保持一致。
漫游功能能適配各種風(fēng)格,我們甚至直接「走進(jìn)」了梵高的畫作。
再試試導(dǎo)演功能(Direct),它最大的亮點(diǎn)是可以在視頻的任意節(jié)點(diǎn)實(shí)時改變內(nèi)容。
我們上傳一張吉卜力風(fēng)格的圖片,HappyOyster立刻打造出一個宮崎駿式的動漫世界:一位小女孩撐著紅色雨傘,走在雨后坑坑洼洼的鄉(xiāng)間小路上。
此時輸入提示詞「一只可愛的吉卜力風(fēng)格的小貓突然跑到女孩身邊」,模型沒有重新渲染,直接在當(dāng)前畫面里生成了一只小貓跑來,與小女孩并排同行。
我們繼續(xù)追加指令:「女孩蹲下?lián)崦∝??!巩嬅嬖俅渭磿r響應(yīng),小女孩蹲身、伸手,動作自然流暢。
總之,模型能夠根據(jù)輸入的提示詞精確調(diào)整場景和人物動作,畫面流暢自然,每個變化都與故事情節(jié)無縫銜接。
技術(shù)解讀:
世界模型與文生視頻,差異何在?
看完實(shí)測,我們可能會直觀地覺得,這和Sora、可靈等文生視頻模型不太一樣。確實(shí)不同,而且是底層邏輯上的差異。
無論是Sora還是可靈,文生視頻模型本質(zhì)上是一次性系統(tǒng)。給定文本或圖像條件后,模型在預(yù)先限定的時間窗口內(nèi)組織內(nèi)容、運(yùn)動和節(jié)奏,然后交付結(jié)果。用戶一次輸入,得到一段輸出,流程就結(jié)束了。這個過程是封閉的、一次性的,中間沒有干預(yù)空間。
這種模式對于生成一段精美的短片足夠,但如果想在畫面中途介入,改變已發(fā)生的事情,就無能為力了。
世界模型的思路則完全不同。它學(xué)習(xí)的是世界接下來會如何發(fā)展:當(dāng)前狀態(tài)是什么,施加一個動作后會發(fā)生什么,再下一步又會怎樣。它沒有預(yù)設(shè)終點(diǎn),當(dāng)沒有新輸入時,模型基于已有狀態(tài)自主延續(xù)世界發(fā)展;若中途注入新指令,模型就結(jié)合當(dāng)前狀態(tài)重新推斷后續(xù)走向,可隨時被打斷、干預(yù)、重寫。
正因如此,世界模型的訓(xùn)練難度遠(yuǎn)高于文生視頻。
最直接的挑戰(zhàn)是速度。世界模型需要在用戶給出指令的瞬間做出響應(yīng),任何明顯延遲都會打破沉浸感。HappyOyster為此采用流式生成框架,將高維視頻與多模態(tài)信息壓縮為緊湊的動態(tài)latent state,大幅降低單步生成的計算開銷,使生成能低延遲持續(xù)推進(jìn)。文本、圖像和漫游指令等控制信號被設(shè)計為可在線注入的條件變量,模型無需重置生成過程就能在任意節(jié)點(diǎn)即時響應(yīng)外部交互。
更棘手的問題是,如何讓世界在長時間演化中保持一致性。生成時間越長,場景越容易出現(xiàn)內(nèi)容漂移和結(jié)構(gòu)退化,物理規(guī)律和空間結(jié)構(gòu)慢慢失去約束,世界逐漸偏離原本的樣子。為了對抗這種「失憶」,HappyOyster引入持續(xù)狀態(tài)復(fù)用機(jī)制,通過歷史注意力狀態(tài)的連續(xù)傳遞,讓模型高效繼承已生成信息并漸進(jìn)更新,在更長時間跨度上維持穩(wěn)定的場景結(jié)構(gòu)與動態(tài)連貫性。
在音畫協(xié)同方面,不同于將音頻作為視頻后期附加物單獨(dú)建模,HappyOyster采用統(tǒng)一的音視頻生成框架,在同一世界狀態(tài)下同步生成視覺與聽覺信號。音頻作為世界動態(tài)的一部分參與聯(lián)合生成,自然建立跨模態(tài)的時間對齊關(guān)系。
目前世界模型領(lǐng)域已有幾個代表性方向。Google的Genie專注于實(shí)時交互式世界建模,但在多模態(tài)輸入的統(tǒng)一表達(dá)和音視頻聯(lián)合生成上還有局限;李飛飛團(tuán)隊的World Labs走的是3D空間結(jié)構(gòu)化重建路線,側(cè)重幾何一致性而非像素空間的長時序動態(tài)生成。

HappyOyster選擇在像素空間內(nèi)進(jìn)行長時序、實(shí)時可交互的動態(tài)世界模擬,并在此基礎(chǔ)上加入音視頻聯(lián)合生成能力,這是一條此前鮮有人走通的路徑,沒有太多現(xiàn)成答案可參考。
結(jié)語
AIGC發(fā)展至今,內(nèi)容生成工具已相當(dāng)成熟。寫文章、生成圖片、制作視頻,這些需求都有了不錯的解決方案。但這條賽道正悄悄逼近新拐點(diǎn),即從「生成內(nèi)容」轉(zhuǎn)向「構(gòu)建世界」。
HappyOyster的出現(xiàn),讓我們看到了這個方向的輪廓。它給每個人一個可以隨時進(jìn)入、隨時修改、實(shí)時反饋的「自定義數(shù)字世界」。我們可以在里面漫游、導(dǎo)演,還能分享給別人,讓別人在我們構(gòu)建的世界里繼續(xù)演繹。
應(yīng)用場景上,它的邊界遠(yuǎn)不止屏幕內(nèi)的娛樂體驗。文旅展陳、互動短劇、影視概念驗證、品牌營銷、直播共創(chuàng)……凡是需要實(shí)時感知、實(shí)時生成、實(shí)時反饋閉環(huán)的場景,它都天然適配。
更長遠(yuǎn)來看,一旦與攝像頭、傳感器、空間設(shè)備等硬件結(jié)合,HappyOyster承載的就是一個可以被現(xiàn)實(shí)信號持續(xù)驅(qū)動的生成式環(huán)境系統(tǒng)。
但坦率地說,世界模型整體仍處于早期階段。長時序下的物理一致性、復(fù)雜場景中的因果推理、對現(xiàn)實(shí)世界規(guī)律的深度理解,這些都是懸而未決的硬核挑戰(zhàn)。HappyOyster是這個方向上目前最接近「可用產(chǎn)品」形態(tài)的探索之一,但探索意味著邊界尚未確定。
這既是局限,也是想象力存在的理由。
本文來自微信公眾號「機(jī)器之心」(ID:almosthuman2014),作者:楊文,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



