欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<samp id="gskiu"></samp>

字節(jié)跳動攜Helios大模型：破解AI視頻生成的“不可能三角”

03-28 06:33

技術(shù)的護城河，構(gòu)筑于對底層架構(gòu)的極致重構(gòu)之上。

Seedance 2.0登頂Sora之后，AI視頻生成領域便陷入狂熱與焦慮交織的狀態(tài)。

即便強大如Seedance 2.0，依舊難以突破該領域的“不可能三角”：

模型規(guī)模、生成時長與推理速度始終難以兼顧。

若想擁有Seedance 2.0般的電影級畫質(zhì)，就必須依賴字節(jié)這類大廠打造的百億參數(shù)多模態(tài)模型，代價卻是最長15秒的視頻時長、高昂的單次生成成本以及十幾分鐘的等待時間。

若追求快速出片，就不得不向參數(shù)量妥協(xié)，采用約10億參數(shù)的小模型，結(jié)果便是畫面模糊、細節(jié)缺失，超過10秒就會出現(xiàn)崩潰。

要是無法實現(xiàn)高質(zhì)量、實時的長視頻，AI視頻生成就永遠無法觸及電影級應用。

不過，推出Seedance 2.0這一劃時代作品的字節(jié)跳動，野心遠不止于此。

由北京大學與字節(jié)跳動等機構(gòu)聯(lián)合研發(fā)的Helios大模型，正試圖以利刃劈開這一“不可能三角”。

Helios是首個能在單張英偉達H100顯卡上，以19.53幀/秒（FPS）速度運行的140億參數(shù)大模型。

這個參數(shù)量雖不算輕量級，但與各大AI廠商的旗艦大語言模型相比，只能算是“迷你版”。

盡管“身材”略顯單薄，但其畫質(zhì)可與當前頂尖模型媲美，還能以接近“實時”的速度連貫生成長達數(shù)分鐘的視頻。

01 令人頭疼的“長程漂移”

使用過即夢、可靈、Sora的用戶或許都有過這樣的疑問：為何視頻生成最多只有10秒或15秒？即便用戶再富有，也無法突破這一限制。

實際上，這不僅是算力問題，即便強行延長生成時間上限，視頻效果也未必理想：

AI生成的視頻往往前幾秒畫面驚艷，但隨著時間推移，畫質(zhì)會迅速下降，比如主角面部特征無法保持、肢體結(jié)構(gòu)突變、背景扭曲、動作違背物理邏輯等。

這就是“漂移”現(xiàn)象。

AI生成視頻的過程，與大語言模型問答類似。大語言模型需依據(jù)記憶和上下文給出后續(xù)回答，多模態(tài)模型同樣需要“基于歷史，繪制未來”。

在FPS固定時，視頻越長，幀數(shù)越多，意味著AI需從每一幀中記憶的信息呈幾何級增長。

在此過程中，哪怕前期生成的畫面存在一絲微小瑕疵，也會在后續(xù)生成中不斷累積放大，最終導致全面崩潰。

為解決這一問題，早期學術(shù)界最直接的方法是在訓練AI時讓其一次性生成長片段，以避免瑕疵擴大，但這種強化學習方法易出現(xiàn)欠擬合和過擬合問題，算力成本更是高得難以承受，百億參數(shù)大模型根本用不起，10億參數(shù)已是極限。

因此，Helios的研究團隊意識到，需從視頻生成過程中尋找突破口。

他們首先發(fā)現(xiàn)，長視頻崩潰常伴隨畫面亮度和色彩的整體失控，而視頻開頭幾秒通常不會出現(xiàn)這種問題。

于是，“首幀錨點（First Frame Anchor）”機制應運而生。

研究團隊將視頻第一幀定為整個生成過程的“定海神針”，AI在后續(xù)漫長生成中必須緊緊“盯住”第一幀，鎖定全局外觀分布。

無論提示詞要求后續(xù)畫面如何發(fā)展，第一幀確立的整體色調(diào)和人物身份都能隨時將AI拉回正軌，避免“畫風突變”。

但即便如此，瑕疵仍不可避免，因此必須讓AI學會處理這種“不完美”。

Helios在訓練階段采用了一種特殊手段：幀感知破壞（Frame Aware Corrupt）。

簡單來說，就是隨機向AI依賴的歷史畫面加入各種瑕疵，讓AI通過強化學習降低對歷史畫面的絕對依賴，并學會依據(jù)常識修復各類問題。

經(jīng)過這種訓練，Helios對誤差的容忍度極高，視頻再長也不易崩潰。

最后一個需解決的問題是位置偏移和重復運動。

AI生成視頻時的位置編碼是絕對的，當生成視頻長度超過訓練時見過的最大長度，注意力機制紊亂會導致畫面閃回初始位置。

Helios將位置編碼改為相對參考，不再關(guān)注“這是第X幀”，而是關(guān)注“這是過去幾幀的延續(xù)”，從根源上杜絕了動作的周期性重復。

02 算力的“魔法”

畫質(zhì)崩壞問題在軟件層面得到解決，但更嚴峻的挑戰(zhàn)來自硬件層面：

140億參數(shù)說多不多、說少不少，如何讓它在單張顯卡上實現(xiàn)19.5 FPS的實時運行？

AI視頻生成本質(zhì)與大語言模型無異，普遍采用的Diffusion Transformer（DiT）架構(gòu)同樣運用自注意力機制捕捉視頻的空間細節(jié)（單幀內(nèi)容）和時間連貫性（幀間運動）。

但由于向量空間中圖像維度高于文本，視頻每一幀內(nèi)容的計算量遠大于大語言模型的一次問答。視頻延長短短幾秒，計算量和顯存占用就會指數(shù)級增長，必須借助GPU集群分攤壓力。

用算力換取畫面質(zhì)量和視頻時長，Sora的關(guān)閉以及Seedance 2.0發(fā)布后的“降智”已給出明確答案：從商業(yè)角度行不通。

Helios果斷選擇了其他路徑，這套名為“深度壓縮流（Deep Compression Flow）”的底層重構(gòu)方案，從token縮減、步數(shù)蒸餾到顯存管理，幾乎榨干了GPU的所有潛能，如同變魔術(shù)般上演了“見證奇跡的時刻”。

1. token視角：時空維度極致壓縮

首先要解決的是視頻上下文過長導致顯存不足的問題，Helios給出的方案是對時空維度進行非對稱壓縮。

前面提到，AI生成視頻是“基于歷史，繪制未來”。因此，準備多久的“歷史資料”是關(guān)鍵問題。

對人類而言，記憶類似數(shù)據(jù)結(jié)構(gòu)中的“?！保筮M先出：我們對前一秒的事記憶猶新，對十分鐘前的事則記憶模糊。

Helios完全借鑒了這種仿生學的多期記憶分塊機制，將AI需回顧的歷史畫面分為短期、中期和長期三種。

對于幾幀前的畫面，Helios保留最高清細節(jié)；對于多幀前較久遠的畫面，Helios進行高強度壓縮，僅保留最粗略的全局布局。

這個簡單思路讓Helios在回顧久遠歷史畫面時，token消耗仍保持在極低的恒定水平，歷史信息的顯存占用直接壓縮至原先的八分之一，徹底解決了單卡運行“爆顯存”的難題。

生成畫面時，Helios也未直接在最高分辨率下開始，而是采用自底向上的開發(fā)策略。

這類似畫家繪畫，先在低分辨率下快速勾勒整體顏色和布局輪廓，再逐層放大，精雕細琢邊緣和紋理等細節(jié)。

早期去噪決定宏觀結(jié)構(gòu)，后期去噪優(yōu)化細節(jié)，通過這種任務拆解機制，計算量可降至一半以下。

2. 步數(shù)視角：對抗性分層蒸餾

AI視頻生成速度慢，是因為傳統(tǒng)擴散模型需要約50步反復去噪。

過去的視頻生成模型在學習一步到位時，為防止忘記歷史畫面“斷片”，必須通過“模擬展開推理”訓練。

模型生成一段視頻后，不僅要靠獎勵模型評判好壞，還要續(xù)寫幾段模擬未來的長視頻。

毫無疑問，這種做法會導致耗時極長和顯存爆炸。

但Helios采用“純教師強制（Pure Teacher Forcing）”模式，讓模型無需模擬未來視頻，而是直接將海量真實連續(xù)視頻切片作為唯一參考標準喂給模型。

模型每次訓練，僅專注于在給定真實歷史畫面下“完美畫出下一小段”，去除復雜模擬過程后訓練效率指數(shù)級提升。

去噪過程中，也存在類似大語言模型的蒸餾機制。

但知識蒸餾總有一個致命缺陷：學生上限不會超過老師，下限卻可能低于老師。一旦缺點被放大，生成視頻質(zhì)量自然下降。

為此，Helios引入基于真實視頻的對抗性后訓練，如果學生去噪結(jié)果只是模仿老師，缺乏真實物理細節(jié)，就打回重做。

這種嚴格訓練方式，奇跡般地將原本需要50步才能實現(xiàn)的畫面保真度壓縮到僅3步。

3. 顯存視角：重構(gòu)調(diào)度機制

GPU顯存是固定的，但模型中有多個子模型需串行計算。

為此，研究團隊設計了一套高級調(diào)度機制，利用專屬數(shù)據(jù)通道，僅在GPU中保存正在計算的子模型，計算結(jié)束閑置時，立即將參數(shù)轉(zhuǎn)移到CPU待命。

對于PyTorch等現(xiàn)代AI訓練框架，前向計算時中間變量會保存到顯存以備反向傳播。

研究團隊注意到這一環(huán)節(jié)后，直接打破了框架底層計算邏輯，只要梯度計算完成，立即手動觸發(fā)程序并在毫秒級釋放激活狀態(tài)，硬是節(jié)省出一倍以上的空閑顯存。

此外，官方深度學習框架還有許多隱藏的數(shù)據(jù)傳輸損耗。

為進一步加速視頻生成，研究團隊直接繞開PyTorch，用底層編譯器語言Triton編寫核心代碼，甚至在傳統(tǒng)注意力機制計算中，直接剔除了內(nèi)存占用復雜度中的一個乘數(shù)維度。

正是這一系列從算法底層到顯存調(diào)度的極致優(yōu)化，讓140億參數(shù)的大模型在H100上創(chuàng)造了奇跡。

03 Helios：重構(gòu)AI視頻的商業(yè)格局

一項底層技術(shù)的突破，往往可能引發(fā)產(chǎn)業(yè)鏈變革，而Helios恰好誕生于研發(fā)Seedance 2.0的字節(jié)跳動。

這個規(guī)模適中的模型，卻具備“高質(zhì)量+實時+單卡+長時間”這一前所未有的特性組合，精準突破了AI視頻商業(yè)化的壁壘。

Sora的關(guān)閉、Seedance 2.0發(fā)布后不久被發(fā)現(xiàn)“降智”的事實，表明阻礙AI視頻大規(guī)模ToC端落地的最大障礙是高昂價格。

近一年來，市面上效果較好的視頻生成模型，生成一次10秒左右的視頻都需消耗極高算力成本。

采用訂閱制時，現(xiàn)有調(diào)用量只會讓AI公司虧損；即便向B端企業(yè)開放API，不僅技術(shù)上存在差距，靠模型產(chǎn)出商業(yè)化成品的費用也讓開發(fā)者望而卻步。

但Helios將140億參數(shù)模型的運行門檻直接降至單張H100，且吞吐量極高。

盡管消費級顯卡仍無法勝任，但這意味著云廠商和SaaS平臺的單路并發(fā)成本將大幅降低，API商業(yè)模式可能迎來質(zhì)變。

現(xiàn)有的按生成次數(shù)付費的積分制，未來可能轉(zhuǎn)變?yōu)榕c大語言模型一樣的按token計費。

只有當生成成本足夠低時，多模態(tài)模型才能從“奢侈品”轉(zhuǎn)變?yōu)橄翊笳Z言模型一樣的基礎設施。

Helios帶來的另一個顛覆性商業(yè)想象是，AI視頻生成即將擺脫“離線渲染”標簽，成為實時互動引擎。

無論是Seedance 2.0還是Sora，本質(zhì)上仍是高級離線渲染器：用戶輸入提示詞、模型開始生成、等待一段時間、獲得一段“開盲盒”式的視頻。

這種非實時交互，注定只能作為內(nèi)容制作的素材生產(chǎn)工具。哪怕效果不佳，費用也得照付。

但Helios已展現(xiàn)出實時互動引擎的雛形。19.5 FPS的速度和連貫的上下文記憶，簡直是為交互式生成量身定制。

若未來用戶能在視頻生成播放過程中動態(tài)修改指令，將直接打開世界模型、沉浸式體驗甚至具身智能等商業(yè)空間。

Helios的出現(xiàn)，為整個AI視頻生成賽道的參與者指明了新方向：

與其通過削減參數(shù)換取生成速度，不如在記憶管理、蒸餾機制和顯存調(diào)度上多下功夫。

技術(shù)的護城河，構(gòu)筑于對底層架構(gòu)的極致重構(gòu)之上。

本文來自微信公眾號“硅基星芒”，作者：思齊，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

出境常中轉(zhuǎn)，武漢還是國際航空樞紐嗎？

創(chuàng)新藥板塊集體爆發(fā)：多股漲停引爆市場，行業(yè)迎來發(fā)展新機遇

游戲耳機不止于電腦前 HyperX颶風3加強版拓展多元使用場景

忽視核心問題，IP系列化開發(fā)終將流于表面

明日開啟！楊浦共青森林公園邀您“花”樣赴春約

項目推薦

<table id="kc26w"></table>