昆侖萬維「Skywork UniPic 2.0」開源,統一多模態模型再迎新突破
8月11日,昆侖萬維SkyWork AI技術發布周正式啟動。8月11日至8月15日,我們每天發布一款新模型,連續五天,覆蓋多模態AI核心場景的前沿模型。截至目前,我們已經發布SkyReels-A3、Matrix-Game 2.0、Matrix-3D模型。
8月13日,昆侖萬維正式開源「Skywork UniPic 2.0」模型——面向統一多模態建模的高效訓練和推理框架,圍繞生成和編輯模塊輕量化、連接多模態理解模型進行聯合訓練,構建了理解、生圖、編輯一體化的核心能力,旨在實現“高效、高質、統一”的多模態生成模型。
當前,「Skywork UniPic 2.0」及其系列模型已全面開源,涵蓋模型權重、推理代碼、強化策略等,助力開發者與研究者快速上手并構建多模態應用。
「Skywork UniPic 2.0」由三個核心模塊組成:
生圖編輯(下圖中): 基于 SD3.5-Medium 架構將原本只支持文本輸入的模型改進成也接受文本圖像同時輸入,然后通過高質量圖像生成和編輯數據的訓練將原本生圖能力擴展成生圖、編輯雙能力。
統一模型能力(下圖左側與中間): 通過凍結生圖編輯模塊,多模態模型(Qwen2.5-VL-7B),Pre-Train連接器來構建出理解生成編輯一體化能力,再通過連接器和生圖編輯模塊一起聯合微調,實現最終的一體化理解、生圖、編輯模型。
生圖編輯后訓練(下圖右): 為提升生圖編輯整體性能,設計了基于Flow-GRPO的漸進式雙任務強化策略,實現了生成與編輯任務在不互相干擾下的協同優化,在預訓練的基礎上進一步提升了模型性能。
圖丨昆侖萬維Skywork UniPic 2.0核心組成模塊
升級后的「Skywork UniPic 2.0」具備以下核心優勢:
生成模塊輕量高效,性能拉滿
生成模塊基于2B參數的SD3.5-Medium 架構訓練,生圖和編輯指標超越生成模塊具有7B參數的bagel,4B參數的OmniGen2,12B參數的UniWorld-V1和Flux-kontext模型。
引入強化學習,效果顯著
基于Flow-GRPO首創漸進式雙任務強化策略,有效提升模型對復雜指令的理解能力與圖像生成和編輯的一致性,兩大任務協同優化、互不干擾。
一體化靈活切換,拓展能力強
將生圖編輯的Kontext模型與多模態模型端到端整合,微調輕量連接器,即可快速構建統一理解-生成-編輯模型,并且生圖和編輯的性能進一步提升。
UniPic2-SD3.5M-Kontext作為單一模型,雖然只有2B的參數量,但生圖指標超越了具有12B參數量的Flux.dev、編輯效果超越了同樣具有12B參數量的Flux-Kontext。同樣超越了幾乎所有統一模型的生圖和編輯效果,包括19B的UniWorld-V1和14B的Bagel。
此外,將UniPic2-SD3.5M-Kontext拓展成統一模型UniPic2-Metaquery后,效果得到了進一步的提升。
圖丨昆侖萬維Skywork UniPic 2.0系列模型評測結果
在優秀的理解、生成和編輯能力背后,昆侖萬維Skywork團隊在預訓練、聯合訓練和后訓練階段均作出創新性優化。