阿里通義千問推出多模態(tài)模型Qwen VLo,引入全新生成機制
6月28日,阿里云通義千問剛剛發(fā)文,宣布推出最新的多模態(tài)統(tǒng)一理解與生成模型Qwen VLo。這一全新升級的模型可以進行高質(zhì)量的再創(chuàng)造,實現(xiàn)從感知到生成的跨越。
官方表示,Qwen VLo采用動態(tài)分辨率訓練,支持動態(tài)分辨率生成。無論是輸入端還是輸出端,模型都支持任意分辨率和長寬比的圖像生成。這意味著用戶不再受限于固定的格式,可以根據(jù)實際需求生成適配不同場景的圖像內(nèi)容。
此外,Qwen VLo還創(chuàng)新性地引入了一種全新的生成機制:從上到下、從左到右逐步清晰的生成過程。這一機制不僅提升了生成效率,還特別適用于需要精細控制的長段落文字生成任務(wù)。
阿里云官方提醒,Qwen VLo屬于預(yù)覽階段,還有很多不足的地方,在生成的過程可能存在不符合事實、不完全和原圖一致的問題,開發(fā)團隊還在持續(xù)迭代。
【來源: 鳳凰網(wǎng) 科技 】