字節(jié)跳動攜Helios大模型:破解AI視頻生成的“不可能三角”
Seedance 2.0登頂Sora之后,AI視頻生成領域便陷入狂熱與焦慮交織的狀態(tài)。
即便強大如Seedance 2.0,依舊難以突破該領域的“不可能三角”:
模型規(guī)模、生成時長與推理速度始終難以兼顧。
若想擁有Seedance 2.0般的電影級畫質(zhì),就必須依賴字節(jié)這類大廠打造的百億參數(shù)多模態(tài)模型,代價卻是最長15秒的視頻時長、高昂的單次生成成本以及十幾分鐘的等待時間。
若追求快速出片,就不得不向參數(shù)量妥協(xié),采用約10億參數(shù)的小模型,結(jié)果便是畫面模糊、細節(jié)缺失,超過10秒就會出現(xiàn)崩潰。
要是無法實現(xiàn)高質(zhì)量、實時的長視頻,AI視頻生成就永遠無法觸及電影級應用。
不過,推出Seedance 2.0這一劃時代作品的字節(jié)跳動,野心遠不止于此。
由北京大學與字節(jié)跳動等機構(gòu)聯(lián)合研發(fā)的Helios大模型,正試圖以利刃劈開這一“不可能三角”。

Helios是首個能在單張英偉達H100顯卡上,以19.53幀/秒(FPS)速度運行的140億參數(shù)大模型。
這個參數(shù)量雖不算輕量級,但與各大AI廠商的旗艦大語言模型相比,只能算是“迷你版”。
盡管“身材”略顯單薄,但其畫質(zhì)可與當前頂尖模型媲美,還能以接近“實時”的速度連貫生成長達數(shù)分鐘的視頻。
01 令人頭疼的“長程漂移”
使用過即夢、可靈、Sora的用戶或許都有過這樣的疑問:為何視頻生成最多只有10秒或15秒?即便用戶再富有,也無法突破這一限制。
實際上,這不僅是算力問題,即便強行延長生成時間上限,視頻效果也未必理想:
AI生成的視頻往往前幾秒畫面驚艷,但隨著時間推移,畫質(zhì)會迅速下降,比如主角面部特征無法保持、肢體結(jié)構(gòu)突變、背景扭曲、動作違背物理邏輯等。

這就是“漂移”現(xiàn)象。
AI生成視頻的過程,與大語言模型問答類似。大語言模型需依據(jù)記憶和上下文給出后續(xù)回答,多模態(tài)模型同樣需要“基于歷史,繪制未來”。
在FPS固定時,視頻越長,幀數(shù)越多,意味著AI需從每一幀中記憶的信息呈幾何級增長。
在此過程中,哪怕前期生成的畫面存在一絲微小瑕疵,也會在后續(xù)生成中不斷累積放大,最終導致全面崩潰。
為解決這一問題,早期學術(shù)界最直接的方法是在訓練AI時讓其一次性生成長片段,以避免瑕疵擴大,但這種強化學習方法易出現(xiàn)欠擬合和過擬合問題,算力成本更是高得難以承受,百億參數(shù)大模型根本用不起,10億參數(shù)已是極限。
因此,Helios的研究團隊意識到,需從視頻生成過程中尋找突破口。

他們首先發(fā)現(xiàn),長視頻崩潰常伴隨畫面亮度和色彩的整體失控,而視頻開頭幾秒通常不會出現(xiàn)這種問題。
于是,“首幀錨點(First Frame Anchor)”機制應運而生。
研究團隊將視頻第一幀定為整個生成過程的“定海神針”,AI在后續(xù)漫長生成中必須緊緊“盯住”第一幀,鎖定全局外觀分布。
無論提示詞要求后續(xù)畫面如何發(fā)展,第一幀確立的整體色調(diào)和人物身份都能隨時將AI拉回正軌,避免“畫風突變”。
但即便如此,瑕疵仍不可避免,因此必須讓AI學會處理這種“不完美”。
Helios在訓練階段采用了一種特殊手段:幀感知破壞(Frame Aware Corrupt)。
簡單來說,就是隨機向AI依賴的歷史畫面加入各種瑕疵,讓AI通過強化學習降低對歷史畫面的絕對依賴,并學會依據(jù)常識修復各類問題。
經(jīng)過這種訓練,Helios對誤差的容忍度極高,視頻再長也不易崩潰。
最后一個需解決的問題是位置偏移和重復運動。
AI生成視頻時的位置編碼是絕對的,當生成視頻長度超過訓練時見過的最大長度,注意力機制紊亂會導致畫面閃回初始位置。
Helios將位置編碼改為相對參考,不再關(guān)注“這是第X幀”,而是關(guān)注“這是過去幾幀的延續(xù)”,從根源上杜絕了動作的周期性重復。
02 算力的“魔法”
畫質(zhì)崩壞問題在軟件層面得到解決,但更嚴峻的挑戰(zhàn)來自硬件層面:
140億參數(shù)說多不多、說少不少,如何讓它在單張顯卡上實現(xiàn)19.5 FPS的實時運行?
AI視頻生成本質(zhì)與大語言模型無異,普遍采用的Diffusion Transformer(DiT)架構(gòu)同樣運用自注意力機制捕捉視頻的空間細節(jié)(單幀內(nèi)容)和時間連貫性(幀間運動)。
但由于向量空間中圖像維度高于文本,視頻每一幀內(nèi)容的計算量遠大于大語言模型的一次問答。視頻延長短短幾秒,計算量和顯存占用就會指數(shù)級增長,必須借助GPU集群分攤壓力。
用算力換取畫面質(zhì)量和視頻時長,Sora的關(guān)閉以及Seedance 2.0發(fā)布后的“降智”已給出明確答案:從商業(yè)角度行不通。
Helios果斷選擇了其他路徑,這套名為“深度壓縮流(Deep Compression Flow)”的底層重構(gòu)方案,從token縮減、步數(shù)蒸餾到顯存管理,幾乎榨干了GPU的所有潛能,如同變魔術(shù)般上演了“見證奇跡的時刻”。
1. token視角:時空維度極致壓縮
首先要解決的是視頻上下文過長導致顯存不足的問題,Helios給出的方案是對時空維度進行非對稱壓縮。
前面提到,AI生成視頻是“基于歷史,繪制未來”。因此,準備多久的“歷史資料”是關(guān)鍵問題。
對人類而言,記憶類似數(shù)據(jù)結(jié)構(gòu)中的“?!保筮M先出:我們對前一秒的事記憶猶新,對十分鐘前的事則記憶模糊。
Helios完全借鑒了這種仿生學的多期記憶分塊機制,將AI需回顧的歷史畫面分為短期、中期和長期三種。

對于幾幀前的畫面,Helios保留最高清細節(jié);對于多幀前較久遠的畫面,Helios進行高強度壓縮,僅保留最粗略的全局布局。
這個簡單思路讓Helios在回顧久遠歷史畫面時,token消耗仍保持在極低的恒定水平,歷史信息的顯存占用直接壓縮至原先的八分之一,徹底解決了單卡運行“爆顯存”的難題。
生成畫面時,Helios也未直接在最高分辨率下開始,而是采用自底向上的開發(fā)策略。
這類似畫家繪畫,先在低分辨率下快速勾勒整體顏色和布局輪廓,再逐層放大,精雕細琢邊緣和紋理等細節(jié)。
早期去噪決定宏觀結(jié)構(gòu),后期去噪優(yōu)化細節(jié),通過這種任務拆解機制,計算量可降至一半以下。
2. 步數(shù)視角:對抗性分層蒸餾
AI視頻生成速度慢,是因為傳統(tǒng)擴散模型需要約50步反復去噪。
過去的視頻生成模型在學習一步到位時,為防止忘記歷史畫面“斷片”,必須通過“模擬展開推理”訓練。
模型生成一段視頻后,不僅要靠獎勵模型評判好壞,還要續(xù)寫幾段模擬未來的長視頻。
毫無疑問,這種做法會導致耗時極長和顯存爆炸。
但Helios采用“純教師強制(Pure Teacher Forcing)”模式,讓模型無需模擬未來視頻,而是直接將海量真實連續(xù)視頻切片作為唯一參考標準喂給模型。
模型每次訓練,僅專注于在給定真實歷史畫面下“完美畫出下一小段”,去除復雜模擬過程后訓練效率指數(shù)級提升。
去噪過程中,也存在類似大語言模型的蒸餾機制。
但知識蒸餾總有一個致命缺陷:學生上限不會超過老師,下限卻可能低于老師。一旦缺點被放大,生成視頻質(zhì)量自然下降。
為此,Helios引入基于真實視頻的對抗性后訓練,如果學生去噪結(jié)果只是模仿老師,缺乏真實物理細節(jié),就打回重做。
這種嚴格訓練方式,奇跡般地將原本需要50步才能實現(xiàn)的畫面保真度壓縮到僅3步。
3. 顯存視角:重構(gòu)調(diào)度機制
GPU顯存是固定的,但模型中有多個子模型需串行計算。
為此,研究團隊設計了一套高級調(diào)度機制,利用專屬數(shù)據(jù)通道,僅在GPU中保存正在計算的子模型,計算結(jié)束閑置時,立即將參數(shù)轉(zhuǎn)移到CPU待命。

對于PyTorch等現(xiàn)代AI訓練框架,前向計算時中間變量會保存到顯存以備反向傳播。
研究團隊注意到這一環(huán)節(jié)后,直接打破了框架底層計算邏輯,只要梯度計算完成,立即手動觸發(fā)程序并在毫秒級釋放激活狀態(tài),硬是節(jié)省出一倍以上的空閑顯存。
此外,官方深度學習框架還有許多隱藏的數(shù)據(jù)傳輸損耗。
為進一步加速視頻生成,研究團隊直接繞開PyTorch,用底層編譯器語言Triton編寫核心代碼,甚至在傳統(tǒng)注意力機制計算中,直接剔除了內(nèi)存占用復雜度中的一個乘數(shù)維度。
正是這一系列從算法底層到顯存調(diào)度的極致優(yōu)化,讓140億參數(shù)的大模型在H100上創(chuàng)造了奇跡。
03 Helios:重構(gòu)AI視頻的商業(yè)格局
一項底層技術(shù)的突破,往往可能引發(fā)產(chǎn)業(yè)鏈變革,而Helios恰好誕生于研發(fā)Seedance 2.0的字節(jié)跳動。
這個規(guī)模適中的模型,卻具備“高質(zhì)量+實時+單卡+長時間”這一前所未有的特性組合,精準突破了AI視頻商業(yè)化的壁壘。
Sora的關(guān)閉、Seedance 2.0發(fā)布后不久被發(fā)現(xiàn)“降智”的事實,表明阻礙AI視頻大規(guī)模ToC端落地的最大障礙是高昂價格。
近一年來,市面上效果較好的視頻生成模型,生成一次10秒左右的視頻都需消耗極高算力成本。
采用訂閱制時,現(xiàn)有調(diào)用量只會讓AI公司虧損;即便向B端企業(yè)開放API,不僅技術(shù)上存在差距,靠模型產(chǎn)出商業(yè)化成品的費用也讓開發(fā)者望而卻步。
但Helios將140億參數(shù)模型的運行門檻直接降至單張H100,且吞吐量極高。
盡管消費級顯卡仍無法勝任,但這意味著云廠商和SaaS平臺的單路并發(fā)成本將大幅降低,API商業(yè)模式可能迎來質(zhì)變。
現(xiàn)有的按生成次數(shù)付費的積分制,未來可能轉(zhuǎn)變?yōu)榕c大語言模型一樣的按token計費。
只有當生成成本足夠低時,多模態(tài)模型才能從“奢侈品”轉(zhuǎn)變?yōu)橄翊笳Z言模型一樣的基礎設施。
Helios帶來的另一個顛覆性商業(yè)想象是,AI視頻生成即將擺脫“離線渲染”標簽,成為實時互動引擎。
無論是Seedance 2.0還是Sora,本質(zhì)上仍是高級離線渲染器:用戶輸入提示詞、模型開始生成、等待一段時間、獲得一段“開盲盒”式的視頻。
這種非實時交互,注定只能作為內(nèi)容制作的素材生產(chǎn)工具。哪怕效果不佳,費用也得照付。
但Helios已展現(xiàn)出實時互動引擎的雛形。19.5 FPS的速度和連貫的上下文記憶,簡直是為交互式生成量身定制。
若未來用戶能在視頻生成播放過程中動態(tài)修改指令,將直接打開世界模型、沉浸式體驗甚至具身智能等商業(yè)空間。
Helios的出現(xiàn),為整個AI視頻生成賽道的參與者指明了新方向:
與其通過削減參數(shù)換取生成速度,不如在記憶管理、蒸餾機制和顯存調(diào)度上多下功夫。
技術(shù)的護城河,構(gòu)筑于對底層架構(gòu)的極致重構(gòu)之上。
本文來自微信公眾號“硅基星芒”,作者:思齊,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



