欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

字節(jié)跳動攜Helios大模型:破解AI視頻生成的“不可能三角”

03-28 06:33
技術(shù)的護城河,構(gòu)筑于對底層架構(gòu)的極致重構(gòu)之上。

Seedance 2.0登頂Sora之后,AI視頻生成領域便陷入狂熱與焦慮交織的狀態(tài)。


即便強大如Seedance 2.0,依舊難以突破該領域的“不可能三角”:


模型規(guī)模、生成時長與推理速度始終難以兼顧。


若想擁有Seedance 2.0般的電影級畫質(zhì),就必須依賴字節(jié)這類大廠打造的百億參數(shù)多模態(tài)模型,代價卻是最長15秒的視頻時長、高昂的單次生成成本以及十幾分鐘的等待時間。


若追求快速出片,就不得不向參數(shù)量妥協(xié),采用約10億參數(shù)的小模型,結(jié)果便是畫面模糊、細節(jié)缺失,超過10秒就會出現(xiàn)崩潰。


要是無法實現(xiàn)高質(zhì)量、實時的長視頻,AI視頻生成就永遠無法觸及電影級應用。


不過,推出Seedance 2.0這一劃時代作品的字節(jié)跳動,野心遠不止于此。


由北京大學與字節(jié)跳動等機構(gòu)聯(lián)合研發(fā)的Helios大模型,正試圖以利刃劈開這一“不可能三角”。



Helios是首個能在單張英偉達H100顯卡上,以19.53幀/秒(FPS)速度運行的140億參數(shù)大模型。


這個參數(shù)量雖不算輕量級,但與各大AI廠商的旗艦大語言模型相比,只能算是“迷你版”。


盡管“身材”略顯單薄,但其畫質(zhì)可與當前頂尖模型媲美,還能以接近“實時”的速度連貫生成長達數(shù)分鐘的視頻。


01 令人頭疼的“長程漂移”


使用過即夢、可靈、Sora的用戶或許都有過這樣的疑問:為何視頻生成最多只有10秒或15秒?即便用戶再富有,也無法突破這一限制。


實際上,這不僅是算力問題,即便強行延長生成時間上限,視頻效果也未必理想:


AI生成的視頻往往前幾秒畫面驚艷,但隨著時間推移,畫質(zhì)會迅速下降,比如主角面部特征無法保持、肢體結(jié)構(gòu)突變、背景扭曲、動作違背物理邏輯等。



這就是“漂移”現(xiàn)象。


AI生成視頻的過程,與大語言模型問答類似。大語言模型需依據(jù)記憶和上下文給出后續(xù)回答,多模態(tài)模型同樣需要“基于歷史,繪制未來”。


在FPS固定時,視頻越長,幀數(shù)越多,意味著AI需從每一幀中記憶的信息呈幾何級增長。


在此過程中,哪怕前期生成的畫面存在一絲微小瑕疵,也會在后續(xù)生成中不斷累積放大,最終導致全面崩潰。


為解決這一問題,早期學術(shù)界最直接的方法是在訓練AI時讓其一次性生成長片段,以避免瑕疵擴大,但這種強化學習方法易出現(xiàn)欠擬合和過擬合問題,算力成本更是高得難以承受,百億參數(shù)大模型根本用不起,10億參數(shù)已是極限。


因此,Helios的研究團隊意識到,需從視頻生成過程中尋找突破口。



他們首先發(fā)現(xiàn),長視頻崩潰常伴隨畫面亮度和色彩的整體失控,而視頻開頭幾秒通常不會出現(xiàn)這種問題。


于是,“首幀錨點(First Frame Anchor)”機制應運而生。


研究團隊將視頻第一幀定為整個生成過程的“定海神針”,AI在后續(xù)漫長生成中必須緊緊“盯住”第一幀,鎖定全局外觀分布。


無論提示詞要求后續(xù)畫面如何發(fā)展,第一幀確立的整體色調(diào)和人物身份都能隨時將AI拉回正軌,避免“畫風突變”。


但即便如此,瑕疵仍不可避免,因此必須讓AI學會處理這種“不完美”。


Helios在訓練階段采用了一種特殊手段:幀感知破壞(Frame Aware Corrupt)。


簡單來說,就是隨機向AI依賴的歷史畫面加入各種瑕疵,讓AI通過強化學習降低對歷史畫面的絕對依賴,并學會依據(jù)常識修復各類問題。


經(jīng)過這種訓練,Helios對誤差的容忍度極高,視頻再長也不易崩潰。


最后一個需解決的問題是位置偏移和重復運動。


AI生成視頻時的位置編碼是絕對的,當生成視頻長度超過訓練時見過的最大長度,注意力機制紊亂會導致畫面閃回初始位置。


Helios將位置編碼改為相對參考,不再關(guān)注“這是第X幀”,而是關(guān)注“這是過去幾幀的延續(xù)”,從根源上杜絕了動作的周期性重復。


02 算力的“魔法”


畫質(zhì)崩壞問題在軟件層面得到解決,但更嚴峻的挑戰(zhàn)來自硬件層面:


140億參數(shù)說多不多、說少不少,如何讓它在單張顯卡上實現(xiàn)19.5 FPS的實時運行?


AI視頻生成本質(zhì)與大語言模型無異,普遍采用的Diffusion Transformer(DiT)架構(gòu)同樣運用自注意力機制捕捉視頻的空間細節(jié)(單幀內(nèi)容)和時間連貫性(幀間運動)。


但由于向量空間中圖像維度高于文本,視頻每一幀內(nèi)容的計算量遠大于大語言模型的一次問答。視頻延長短短幾秒,計算量和顯存占用就會指數(shù)級增長,必須借助GPU集群分攤壓力。


用算力換取畫面質(zhì)量和視頻時長,Sora的關(guān)閉以及Seedance 2.0發(fā)布后的“降智”已給出明確答案:從商業(yè)角度行不通。


Helios果斷選擇了其他路徑,這套名為“深度壓縮流(Deep Compression Flow)”的底層重構(gòu)方案,從token縮減、步數(shù)蒸餾到顯存管理,幾乎榨干了GPU的所有潛能,如同變魔術(shù)般上演了“見證奇跡的時刻”。


1. token視角:時空維度極致壓縮


首先要解決的是視頻上下文過長導致顯存不足的問題,Helios給出的方案是對時空維度進行非對稱壓縮。


前面提到,AI生成視頻是“基于歷史,繪制未來”。因此,準備多久的“歷史資料”是關(guān)鍵問題。


對人類而言,記憶類似數(shù)據(jù)結(jié)構(gòu)中的“?!保筮M先出:我們對前一秒的事記憶猶新,對十分鐘前的事則記憶模糊。


Helios完全借鑒了這種仿生學的多期記憶分塊機制,將AI需回顧的歷史畫面分為短期、中期和長期三種。



對于幾幀前的畫面,Helios保留最高清細節(jié);對于多幀前較久遠的畫面,Helios進行高強度壓縮,僅保留最粗略的全局布局。


這個簡單思路讓Helios在回顧久遠歷史畫面時,token消耗仍保持在極低的恒定水平,歷史信息的顯存占用直接壓縮至原先的八分之一,徹底解決了單卡運行“爆顯存”的難題。


生成畫面時,Helios也未直接在最高分辨率下開始,而是采用自底向上的開發(fā)策略。


這類似畫家繪畫,先在低分辨率下快速勾勒整體顏色和布局輪廓,再逐層放大,精雕細琢邊緣和紋理等細節(jié)。


早期去噪決定宏觀結(jié)構(gòu),后期去噪優(yōu)化細節(jié),通過這種任務拆解機制,計算量可降至一半以下。


2. 步數(shù)視角:對抗性分層蒸餾


AI視頻生成速度慢,是因為傳統(tǒng)擴散模型需要約50步反復去噪。


過去的視頻生成模型在學習一步到位時,為防止忘記歷史畫面“斷片”,必須通過“模擬展開推理”訓練。


模型生成一段視頻后,不僅要靠獎勵模型評判好壞,還要續(xù)寫幾段模擬未來的長視頻。


毫無疑問,這種做法會導致耗時極長和顯存爆炸。


但Helios采用“純教師強制(Pure Teacher Forcing)”模式,讓模型無需模擬未來視頻,而是直接將海量真實連續(xù)視頻切片作為唯一參考標準喂給模型。


模型每次訓練,僅專注于在給定真實歷史畫面下“完美畫出下一小段”,去除復雜模擬過程后訓練效率指數(shù)級提升。


去噪過程中,也存在類似大語言模型的蒸餾機制。


但知識蒸餾總有一個致命缺陷:學生上限不會超過老師,下限卻可能低于老師。一旦缺點被放大,生成視頻質(zhì)量自然下降。


為此,Helios引入基于真實視頻的對抗性后訓練,如果學生去噪結(jié)果只是模仿老師,缺乏真實物理細節(jié),就打回重做。


這種嚴格訓練方式,奇跡般地將原本需要50步才能實現(xiàn)的畫面保真度壓縮到僅3步。


3. 顯存視角:重構(gòu)調(diào)度機制


GPU顯存是固定的,但模型中有多個子模型需串行計算。


為此,研究團隊設計了一套高級調(diào)度機制,利用專屬數(shù)據(jù)通道,僅在GPU中保存正在計算的子模型,計算結(jié)束閑置時,立即將參數(shù)轉(zhuǎn)移到CPU待命。



對于PyTorch等現(xiàn)代AI訓練框架,前向計算時中間變量會保存到顯存以備反向傳播。


研究團隊注意到這一環(huán)節(jié)后,直接打破了框架底層計算邏輯,只要梯度計算完成,立即手動觸發(fā)程序并在毫秒級釋放激活狀態(tài),硬是節(jié)省出一倍以上的空閑顯存。


此外,官方深度學習框架還有許多隱藏的數(shù)據(jù)傳輸損耗。


為進一步加速視頻生成,研究團隊直接繞開PyTorch,用底層編譯器語言Triton編寫核心代碼,甚至在傳統(tǒng)注意力機制計算中,直接剔除了內(nèi)存占用復雜度中的一個乘數(shù)維度。


正是這一系列從算法底層到顯存調(diào)度的極致優(yōu)化,讓140億參數(shù)的大模型在H100上創(chuàng)造了奇跡。


03 Helios:重構(gòu)AI視頻的商業(yè)格局


一項底層技術(shù)的突破,往往可能引發(fā)產(chǎn)業(yè)鏈變革,而Helios恰好誕生于研發(fā)Seedance 2.0的字節(jié)跳動。


這個規(guī)模適中的模型,卻具備“高質(zhì)量+實時+單卡+長時間”這一前所未有的特性組合,精準突破了AI視頻商業(yè)化的壁壘。


Sora的關(guān)閉、Seedance 2.0發(fā)布后不久被發(fā)現(xiàn)“降智”的事實,表明阻礙AI視頻大規(guī)模ToC端落地的最大障礙是高昂價格。


近一年來,市面上效果較好的視頻生成模型,生成一次10秒左右的視頻都需消耗極高算力成本。


采用訂閱制時,現(xiàn)有調(diào)用量只會讓AI公司虧損;即便向B端企業(yè)開放API,不僅技術(shù)上存在差距,靠模型產(chǎn)出商業(yè)化成品的費用也讓開發(fā)者望而卻步。


但Helios將140億參數(shù)模型的運行門檻直接降至單張H100,且吞吐量極高。


盡管消費級顯卡仍無法勝任,但這意味著云廠商和SaaS平臺的單路并發(fā)成本將大幅降低,API商業(yè)模式可能迎來質(zhì)變。


現(xiàn)有的按生成次數(shù)付費的積分制,未來可能轉(zhuǎn)變?yōu)榕c大語言模型一樣的按token計費。


只有當生成成本足夠低時,多模態(tài)模型才能從“奢侈品”轉(zhuǎn)變?yōu)橄翊笳Z言模型一樣的基礎設施。


Helios帶來的另一個顛覆性商業(yè)想象是,AI視頻生成即將擺脫“離線渲染”標簽,成為實時互動引擎。


無論是Seedance 2.0還是Sora,本質(zhì)上仍是高級離線渲染器:用戶輸入提示詞、模型開始生成、等待一段時間、獲得一段“開盲盒”式的視頻。


這種非實時交互,注定只能作為內(nèi)容制作的素材生產(chǎn)工具。哪怕效果不佳,費用也得照付。


但Helios已展現(xiàn)出實時互動引擎的雛形。19.5 FPS的速度和連貫的上下文記憶,簡直是為交互式生成量身定制。


若未來用戶能在視頻生成播放過程中動態(tài)修改指令,將直接打開世界模型、沉浸式體驗甚至具身智能等商業(yè)空間。


Helios的出現(xiàn),為整個AI視頻生成賽道的參與者指明了新方向:


與其通過削減參數(shù)換取生成速度,不如在記憶管理、蒸餾機制和顯存調(diào)度上多下功夫。


技術(shù)的護城河,構(gòu)筑于對底層架構(gòu)的極致重構(gòu)之上。


本文來自微信公眾號“硅基星芒”,作者:思齊,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com