什么,?這些不是真人照片,,都是AI畫出來的,?,!
最近這樣一組美女圖片刷屏了,,許多人看到第一反應(yīng)都是“AI逼真到這個份上了?”,。
直到看到手部露出了破綻,才敢確定確實是AI畫的,。
原來在ChatGPT的光芒掩蓋一切的這段時間,圖像生成AI已經(jīng)從從畫畫悄悄進化到了“畫照片”。
這種風(fēng)格和質(zhì)量的AI照片,,還有很多在各大網(wǎng)絡(luò)社區(qū)流傳,,國內(nèi)貼吧、微博,、NGA,,國外推特、油管,,到處都是,。
有網(wǎng)友表示:AI聊天+AI照片,,快進到AI網(wǎng)戀詐騙,。
而Cosplay風(fēng)格的AI照片也讓一些人感嘆“商業(yè)Coser和攝影師可能雙雙下崗”。
根據(jù)各帖子發(fā)布者透露,,這些AI照片都出自同一個模型,Chilloutmix,。
多個模型融合進化,,照片級AI誕生
ChilloutMix,,二月初出現(xiàn)在模型分享社區(qū)CivitAI(不少愛好者稱之為c站)。
不到兩周時間,,下載數(shù)量超過5萬,。
簡單來說,,這個模型還是基于大家熟悉的Stable Diffusion,,1.5版本,但是由許多衍生模型合并(Merge)而來,。
主要組件包括兩大模型,,首先是Basilmix,專攻逼真的紋理和亞洲臉型,。
但這個模型主要還是擅長半寫實的“2.5D風(fēng)格”。
接下來合并了用照片集數(shù)據(jù)優(yōu)化的Dreamlike的衍生模型,,讓最終生成結(jié)果更接近3D寫實風(fēng)格。
除了兩個主要模型之外,,作者還添加了一些小的Embeddings(相當(dāng)于給AI模型打補丁)。
比如第一個Pure Eros Face,,提供的.pt文件只有3.92KB,可以合并到任何基于SD1.5的模型,,專門負責(zé)生成“純欲系面孔”,。
所有這些模型和Embeddings,,各自擅長不同的地方,,如一種畫風(fēng)、一種紋理,、人物臉型甚至姿勢,。
Merge在一起后,可通過不同提示詞調(diào)用它們的能力,,一般原作者都會附上使用指南。
如果還是不太會用,,CivitAI社區(qū)里還會有很多網(wǎng)友曬使用相應(yīng)模型生成的作品,其中還有很多標(biāo)記了“NSFW”或“18+”,,懂得都懂,。
除了ChilloutMix之外,,文章開頭的那組圖片之所以能固定生成同一張面孔,,還使用了另一項技術(shù)LoRA。
LoRA本來是微軟研究團隊早在2021年提出的一項大語言模型微調(diào)的技術(shù),,可以大大提高微調(diào)訓(xùn)練速度,。
去年底,韓國科學(xué)技術(shù)院KAIST一位研究員@cloneofsimo與HuggingFace合作,,將此方法擴展到Stable Diffusion上,。
不僅實現(xiàn)了單塊11GB顯存的RTX2080Ti實現(xiàn)模型完整微調(diào),同時原始模型權(quán)重凍結(jié),,新訓(xùn)練出來的權(quán)重可以保存為3MB大小的單個文件發(fā)布,。
這項技術(shù)被AI繪畫愛好者用來讓模型固定生成一個物體,最流行的就是固定一個人物形象,。
現(xiàn)在,,在CivitAI社區(qū)里,每個微調(diào)好的權(quán)重就叫做一個Lora,,就相當(dāng)于一個人物模版,,所有人都可以方便下載使用。
如開頭的那組圖片就是來自叫“Korean Doll Likeness”的Lora,目前下載量排名第一,。
對于ChilloutMix+LoRA這樣的技術(shù),作者也意識到了可能被濫用的風(fēng)險,,并著重提示了法律風(fēng)險,,特別強調(diào)不要用于真實存在的人物。
為什么AI還是不會畫手,?
對于這個問題,最近也有了研究進展,。
Stability AI 發(fā)言人表示,,在AI數(shù)據(jù)集中,手的圖像不夠顯著,,“在源圖像中,,手(比面部部分等)要小得多。”
佛羅里達大學(xué)AI和藝術(shù)副教授Amelia Winger-Bearskin解釋說,,AI基于從互聯(lián)網(wǎng)上收集的數(shù)十億張圖像進行訓(xùn)練,,它并不能真正理解“手”是什么,至少不理解解剖學(xué)意義上手和人體的關(guān)聯(lián),。
在用來訓(xùn)練生成AI的圖像中,手通常會抓住一些東西,,或者另一只手,。如此一來,手指的情況就不容易辨清,。
如果所有的訓(xùn)練圖像中,,手都是五指張開,AI就能夠畫出正常的手,。
文章出處:量子位