Stable Diffusion團隊放大招!新繪畫模型直出AI海報,像素級生成
Admin 2023-09-20 群英技術(shù)資訊 1025 次瀏覽
在日常操作或是項目的實際應(yīng)用中,有不少朋友對于“Stable Diffusion團隊放大招!新繪畫模型直出AI海報,像素級生成”的問題會存在疑惑,下面小編給大家整理和分享了相關(guān)知識和資料,易于大家學(xué)習(xí)和理解,有需要的朋友可以借鑒參考,下面我們一起來了解一下吧。AI畫文字終于能畫對了
開源AI繪畫扛把子,Stable Diffusion背后公司StabilityAI再放大招!
全新開源模型DeepFloyd IF,一下獲星2千+并登上GitHub熱門榜。
DeepFloyd IF不光圖像質(zhì)量是照片級的,還解決了文生圖的兩大難題:
準(zhǔn)確繪制文字。(霓虹燈招牌上寫著xxx)
以及準(zhǔn)確理解空間關(guān)系。(一只貓照鏡子看見獅子的倒影)
網(wǎng)友表示,這可是個大事,之前想讓Midjourney v5在霓虹燈招牌上寫個字AI都是瞎劃拉兩筆,對于鏡子理解的也不對。
使用DeepFloyd IF,可以把指定文字巧妙放置在畫面中任何地方。
霓虹燈招牌、街頭涂鴉、服飾、手繪插畫,文字都會以合適的字體、風(fēng)格、排版出現(xiàn)在合理的地方。
這意味著,AI直出商品渲染圖、海報等實用工作流程又打通一環(huán)。
還在視頻特效上開辟了新方向。
目前DeepFloyd IF以非商用許可開源,不過團隊解釋這是暫時的,獲得足夠的用戶反饋后將轉(zhuǎn)向更寬松的協(xié)議。
有需求的小伙伴可以抓緊反饋起來了。
DeepFloyd IF仍然基于擴散模型,但與之前的Stable Diffusion相比有兩大不同。
負責(zé)理解文字的部分從OpenAI的CLIP換成了谷歌T5-XXL,結(jié)合超分辨率模塊中額外的注意力層,獲得更準(zhǔn)確的文本理解。
負責(zé)生成圖像的部分從潛擴散模型換成了像素級擴散模型。
也就是擴散過程不再作用于表示圖像編碼的潛空間,而是直接作用于像素。
官方還提供了一組DeepFloyd IF與其他AI繪畫模型的直觀對比。
可以看出,使用T5做文本理解的谷歌Parti和英偉達eDiff-1也都可以準(zhǔn)確繪制文字,AI不會寫字這事就是CLIP的鍋。
不過英偉達eDiff-1不開源,谷歌的幾個模型更是連個Demo都不給,DeepFloyd IF就成了更實際的選擇。
具體生成圖像上DeepFloyd IF與之前模型一致,語言模型理解文本后先生成64×64分辨率的小圖,再經(jīng)過不同層次的擴散模型和超分辨率模型放大。
在這種架構(gòu)上,通過把指定圖像縮小回64×64再使用新的提示詞重新執(zhí)行擴散,也實現(xiàn)以圖生圖并調(diào)整風(fēng)格、內(nèi)容和細節(jié)。
并且不需要對模型做微調(diào)就可直接實現(xiàn)。
另外,DeepFloyd IF的優(yōu)勢還在于,IF-4.3B基礎(chǔ)模型是目前擴散模型中U-Net部分有效參數(shù)是最多的。
在實驗中,IF-4.3B取得了最好的FID分數(shù),并達到SOTA(FID越低代表圖像質(zhì)量越高、多樣性越好)。
DeepFloyd AI Research是StabilityAI旗下的獨立研發(fā)團隊,深受搖滾樂隊平克弗洛伊德影響,自稱為一只“研發(fā)樂隊”。
主要成員只有4人,從姓氏來看均為東歐背景。
這次除了開源代碼外,團隊在HuggingFace上還提供了DeepFloyd IF模型的在線試玩。
我們也試了試,很可惜的是目前對中文還不太支持。
原因可能是其訓(xùn)練數(shù)據(jù)集LAION-A里面中文內(nèi)容不多,不過既然開源了,相信在中文數(shù)據(jù)集上訓(xùn)練好的變體也不會太晚出現(xiàn)。
DeepFloyd IF并不是Stability AI昨晚在開源上的唯一動作
語言模型方面,他們也推出了首個開源并引入RLHF技術(shù)的聊天機器人StableVicuna,基于小羊駝Vicuna-13B模型實現(xiàn)。
目前代碼和模型權(quán)重已開放下載。
完整的桌面和移動界面也即將發(fā)布。
Deepfloyd IF在線試玩:
https://huggingface.co/spaces/DeepFloyd/IF
代碼:
https://github.com/deep-floyd/IF
StableVicuna在線試玩:
https://huggingface.co/spaces/CarperAI/StableVicuna
權(quán)重下載:
https://huggingface.co/CarperAI/stable-vicuna-13b-delta
參考鏈接:
[1]https://deepfloyd.ai/deepfloyd-if
[2]https://stability.ai/blog/deepfloyd-if-text-to-image-model
[3]https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot
[4]https://stable-diffusion-art.com/how-stable-diffusion-work/
到此這篇關(guān)于“Stable Diffusion團隊放大招!新繪畫模型直出AI海報,像素級生成”的文章就介紹到這了,更多相關(guān)內(nèi)容請搜索群英網(wǎng)絡(luò)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持群英網(wǎng)絡(luò)!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:[email protected]進行舉報,并提供相關(guān)證據(jù),查實之后,將立刻刪除涉嫌侵權(quán)內(nèi)容。
猜你喜歡
GitHub項目免費教你提示工程,全中文教學(xué),小白也能懂
小米否認“華為余承東將赴小米汽車任職”;李子柒停更一年油管每月仍有78萬廣告收入;中國電科回應(yīng)“員工痛批強制加班”丨邦早報
警惕四大AI新騙術(shù)!有人10分鐘被騙430萬
商湯回應(yīng)AI作圖爭議/ 推特公司不存在了/ 巴菲特:不確定ChatGPT是否有益…今日更多新鮮事在此
Stable Diffusion動畫版上線!十五種風(fēng)格預(yù)設(shè),支持文本、圖像、視頻多種輸入方式
推薦內(nèi)容
成為群英會員,開啟智能安全云計算之旅
立即注冊關(guān)注或聯(lián)系群英網(wǎng)絡(luò)
7x24小時售前:400-678-4567
7x24小時售后:0668-2555666
24小時QQ客服
群英微信公眾號
CNNIC域名投訴舉報處理平臺
服務(wù)電話:010-58813000
服務(wù)郵箱:[email protected]
投訴與建議:0668-2555555
Copyright ? QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版權(quán)所有
增值電信經(jīng)營許可證 : B1.B2-20140078 ICP核準(zhǔn)(ICP備案)粵ICP備09006778號 域名注冊商資質(zhì) 粵 D3.1-20240008