DeepMind 沒舍得開源的 Genie 3,被昆侖萬維放出來了
過去一周,世界模型賽道的熱度被推到新高。
DeepMind 剛發(fā)布的 Genie 3 展示了交互式、實(shí)時(shí)、長序列生成的能力,讓“虛擬世界隨時(shí)可玩、可控”從概念變成了可見的產(chǎn)品形態(tài)。不過,Genie 3 雖然驚艷,卻并未開源,這讓不少開發(fā)者只能停留在猜測其技術(shù)細(xì)節(jié)的階段。
然而 DeepMind 沒做到的事,昆侖萬維做到了。8 月 12 日,在昆侖萬維啟動(dòng)Skywork AI技術(shù)發(fā)布周的第二天,昆侖萬維推出了自研 Matrix 系列的升級版,交互式世界模型 Matrix-Game 2.0。
和 Genie 3 相比,Matrix-Game 2.0 不僅同樣實(shí)現(xiàn)了通用場景下的實(shí)時(shí)長序列交互生成,更大膽的是,它完整開源,成為了業(yè)內(nèi)首個(gè)在通用場景落地這項(xiàng)能力的開源世界模型。這意味著,社區(qū)不僅能看到最終效果,還能復(fù)現(xiàn)、改進(jìn),甚至直接嵌入實(shí)際項(xiàng)目。
與更偏向技術(shù)演示的 Genie 3 不同,Matrix-Game 2.0 的定位更貼近產(chǎn)業(yè)化落地:它的目標(biāo)是讓這項(xiàng)能力可以即用即調(diào),并直接服務(wù)于游戲引擎、具身智能、虛擬人交互等場景。
換句話說,昆侖萬維是正在把世界模型從實(shí)驗(yàn)室,真正推向了生產(chǎn)線,昆侖萬維過去兩年大筆研發(fā)投入終于迎來了“開花結(jié)果”的階段,技術(shù)成果持續(xù)轉(zhuǎn)化為營收增長動(dòng)能。
當(dāng)技術(shù)飛輪和商業(yè)飛輪同頻轉(zhuǎn)動(dòng),昆侖萬維率先拉開整個(gè) AI 領(lǐng)域商業(yè)化的序幕。
虛擬世界的真實(shí)感
昆侖萬維的 Matrix-Game 2.0,真正把“交互式世界模型”從紙面技術(shù)變成了可以直接上手的工具。用戶只需要鍵盤和鼠標(biāo),就能在模型生成的世界里實(shí)時(shí)移動(dòng)、轉(zhuǎn)向、執(zhí)行動(dòng)作,畫面以 25FPS 連續(xù)輸出,并在分鐘級長序列中保持物理邏輯和細(xì)節(jié)穩(wěn)定。
在 GTA 場景中,白天的城市主干道上,車輛和行人川流不息。玩家駕駛著轎車在車流間穿梭,轉(zhuǎn)向、加速與剎車都即時(shí)體現(xiàn)在畫面中。25FPS 的實(shí)時(shí)生成讓光影、路面反射與 NPC 動(dòng)作都保持穩(wěn)定一致。
在高速公路上的疾馳畫面中,遠(yuǎn)處山體與天空細(xì)節(jié)清晰可見。玩家變道、提速等操作與場景變化自然銜接。模型保持了分鐘級長序列的連貫性,光照切換與物理碰撞無延遲。
同樣在 MC 的像素風(fēng)方塊世界中,遠(yuǎn)處是起伏的山丘與樹木。玩家操控角色行走、跳躍,動(dòng)作指令即時(shí)轉(zhuǎn)化為生成畫面。模型在低紋理細(xì)節(jié)下依然保持物體位置與交互邏輯準(zhǔn)確。
在復(fù)雜的地形中進(jìn)行攀爬,方塊臺階與懸崖邊緣依舊無縫銜接。25FPS 的生成速度確保了視角切換的流暢性,角色運(yùn)動(dòng)軌跡和地形碰撞保持物理一致。
除此之外,在神廟逃亡這款經(jīng)典游戲的場景中,高速奔跑的賽道兩側(cè)是古老的石墻與懸崖。玩家連續(xù)執(zhí)行轉(zhuǎn)彎、跳躍、下蹲等操作,模型即時(shí)生成對應(yīng)視角變化。動(dòng)作與背景透視精準(zhǔn)同步,完全沒有拖影或卡頓。
而在 Wild 場景里,玩家沿小路緩慢前進(jìn)并調(diào)整視角,光影變化和植被細(xì)節(jié)與操作步驟依舊同步變化。分鐘級生成下,環(huán)境細(xì)節(jié)在長時(shí)序中無明顯漂移。
分鐘級長視頻,實(shí)時(shí)可交互
Demo 之外,Matrix-Game 2.0 的技術(shù)報(bào)告也十分有看點(diǎn)。它的設(shè)計(jì)目標(biāo),是構(gòu)建一個(gè)既可操控、又能實(shí)時(shí)響應(yīng)的虛擬世界,并在長時(shí)間運(yùn)行中保持流暢性與物理一致性。其技術(shù)方案可分為四個(gè)層次:核心理念、模型架構(gòu)、生成機(jī)制,以及數(shù)據(jù)與任務(wù)設(shè)計(jì)。
與許多依賴文本提示的生成模型不同,Matrix-Game 2.0 完全繞過語言輸入,將視覺作為唯一信號。這種方式避免了語言先驗(yàn)可能帶來的語義偏差,讓模型直接從畫面中學(xué)習(xí)空間結(jié)構(gòu)、物體關(guān)系和物理規(guī)律,從而生成更貼近真實(shí)的虛擬場景。
架構(gòu)方面以圖像為核心,由三大組件組成:3D Causal VAE 壓縮結(jié)構(gòu)在空間與時(shí)間兩個(gè)維度對視頻進(jìn)行高效壓縮,既保留關(guān)鍵信息,又降低計(jì)算成本。多模態(tài)擴(kuò)散 Transformer(DiT)將視覺編碼與用戶的操作指令融合,逐幀生成符合物理規(guī)律的動(dòng)態(tài)視頻序列,再通過 3D VAE 解碼成完整畫面。動(dòng)作控制模塊借鑒 GameFactory 與 Genie 系列的交互框架,引入幀級鍵盤與鼠標(biāo)輸入,實(shí)現(xiàn)即時(shí)操控與世界生成的無縫銜接。
當(dāng)然,Matrix-Game 2.0 也要面對長序列視頻常會(huì)遇到延遲和誤差累積的問題,不過它直接通過專有的三項(xiàng)機(jī)制應(yīng)對:
因果擴(kuò)散訓(xùn)練將雙向擴(kuò)散蒸餾為因果模型,僅依賴歷史幀生成當(dāng)前幀,減少等待、提升推理速度。
分布匹配蒸餾(DMD)在訓(xùn)練中最小化學(xué)生模型與原始模型的生成分布差異,保證長時(shí)間生成下的畫面穩(wěn)定性,減少漂移。
KV-Cache 緩存機(jī)制保存注意力上下文,實(shí)現(xiàn)滾動(dòng)生成,避免重復(fù)計(jì)算,即便在單 GPU 環(huán)境下也能達(dá)到 25 FPS 的實(shí)時(shí)速度。
除此之外,為保證在多場景下的表現(xiàn),研究團(tuán)隊(duì)還基于 Unreal Engine 和 GTA5 搭建了可擴(kuò)展的數(shù)據(jù)生產(chǎn)管線,生成了上千小時(shí)的高質(zhì)量交互視頻,涵蓋多風(fēng)格、多任務(wù)場景。
并在此基礎(chǔ)上,訓(xùn)練了多個(gè)子模型:Matrix-Game Uni 適合探索多種真實(shí)感靜態(tài)場景;Matrix-Game TempleRun面向跑酷類游戲,具備精準(zhǔn)的動(dòng)作響應(yīng);Matrix-Game GTA 則可模擬動(dòng)態(tài)城市與車輛運(yùn)行,場景中的物體具備獨(dú)立運(yùn)動(dòng)軌跡。
總的來說,結(jié)合架構(gòu)與數(shù)據(jù),Matrix-Game 2.0 在三方面表現(xiàn)尤為突出:高幀率長序列生成,支持分鐘級的連續(xù)交互視頻生成,動(dòng)作流暢、響應(yīng)及時(shí);多場景泛化,無需重新訓(xùn)練即可適配多種風(fēng)格和環(huán)境,從寫實(shí)城市到藝術(shù)化場景均能生成;物理一致性增強(qiáng),角色在復(fù)雜地形下的行為符合物理邏輯,顯著提升沉浸感與可控性。
憑借這些特性,Matrix-Game 2.0 不僅可用于游戲內(nèi)容創(chuàng)作,還能為具身智能訓(xùn)練、虛擬現(xiàn)實(shí)、影視制作及元宇宙內(nèi)容生產(chǎn)提供穩(wěn)定的技術(shù)支撐。雷峰網(wǎng) (公眾號:雷峰網(wǎng))
飛輪在轉(zhuǎn),且轉(zhuǎn)得更快
過去,AI 公司大多依賴出售單一模型能力,通過 API 調(diào)用費(fèi)或訂閱制獲取收入,這種模式的優(yōu)點(diǎn)是輕資產(chǎn)、上手快,但缺點(diǎn)也明顯:客戶黏性不足,易被替代,商業(yè)天花板較低。
而昆侖萬維這次“技術(shù)周”釋放出的信號也很明確:它正從“賣模型”轉(zhuǎn)向“賣系統(tǒng)”,即用多模態(tài)能力構(gòu)建一整套可直接嵌入客戶工作流的行業(yè)解決方案。這樣一來,客戶不僅購買某個(gè)模型的使用權(quán),而是將整個(gè)工作鏈條部分外包給昆侖萬維的 AI 系統(tǒng),從而形成更強(qiáng)的綁定關(guān)系和更穩(wěn)定的收入來源。
總的來說,這種模式的變化可以看作是從點(diǎn)狀能力變現(xiàn)升級成體系化能力變現(xiàn)的過程,也是卡位未來競爭高地的主動(dòng)出擊,這種體系化轉(zhuǎn)型不僅改變了昆侖萬維的業(yè)務(wù)重心,也踩在了行業(yè)發(fā)展的主旋律上:多模態(tài)閉環(huán)正在成為全球 AI 廠商的必爭之地,誰能率先跑通并規(guī)模化落地,誰就可能在新一輪的產(chǎn)業(yè)洗牌中占據(jù)制高點(diǎn)。
昆侖萬維 2025 年 Q1 財(cái)報(bào)數(shù)據(jù)顯示,經(jīng)營性現(xiàn)金流凈額增長 58.3%,顯然,2024 年 15.4 億元的研發(fā)投入正持續(xù)轉(zhuǎn)化為營收增長動(dòng)能。這驗(yàn)證了 AI 技術(shù)商業(yè)化的可持續(xù)性,使昆侖萬維成為國內(nèi)首個(gè)跑通“研發(fā)投入——產(chǎn)品變現(xiàn)——現(xiàn)金流反哺”閉環(huán)的 AI 企業(yè)。
Matrix-Game 2.0 只是其中一個(gè)信號,本次技術(shù)發(fā)布周,昆侖萬維還帶來了視頻生成模型(Skyreels)等模型、生圖一體化模型、智能體,這些產(chǎn)品將在短視頻、直播帶貨、具身智能、游戲等領(lǐng)域大放異彩,率先實(shí)現(xiàn)商業(yè)化。
昆侖萬維將持續(xù)迎來營收增長,技術(shù)產(chǎn)品矩陣持續(xù)落地,真正迎來技術(shù)和商業(yè)的同時(shí)加速,這一切正在發(fā)生!雷峰網(wǎng)
1、技術(shù)報(bào)告:https://github.com/SkyworkAI/Matrix-Game/blob/main/Matrix-Game-2/assets/pdf/report.pdf
2、項(xiàng)目主頁:https://matrix-game-v2.github.io/
3、HuggingFace地址:https://huggingface.co/Skywork/Matrix-Game-2.0
4、GitHub地址:https://github.com/SkyworkAI/Matrix-Game
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見 轉(zhuǎn)載須知 。