通義千問發(fā)布了首個開源圖像生成基礎(chǔ)模型Qwen-Image,Qwen-Image是一個200億參數(shù)的MMDiT模型,是通義千問系列中首個圖像生成基礎(chǔ)模型。
該模型在文本渲染方面表現(xiàn)卓越,支持中英文多行段落級高保真文本渲染,對復(fù)雜場景和細粒度細節(jié)處理能力強。Qwen-Image具備一致性的圖像編輯能力,通過增強的多任務(wù)訓(xùn)練范式,在編輯過程中能保持內(nèi)容的一致性。
在GenEval、DPG、OneIG-Bench、GEdit、ImgEdit、GSO等多個公開基準測試中,Qwen-Image均取得了最先進(SOTA)的性能。特別是在LongText-Bench、ChineseWord和TextCraft等文本渲染基準上,Qwen-Image表現(xiàn)突出,尤其是在中文文本渲染方面大幅領(lǐng)先現(xiàn)有模型。Qwen-Image能夠準確渲染海報、PPT頁面等多種包含復(fù)雜文本和圖像組合的場景。