Stable Diffusion 3發(fā)布,但AI生成的人體畫風變得奇怪起來

Stable Diffusion 3發(fā)布后,因生成的畸形人體圖像被網(wǎng)友嘲諷為“倒退”,引發(fā)廣泛討論。

在周三,Stability AI發(fā)布了Stable Diffusion 3 Medium,一種將文本提示轉(zhuǎn)換為AI生成圖像的模型。但該模型因生成的人體圖像畸形,反而被網(wǎng)友嘲笑為技術上的倒退,與其他先進的圖像合成模型如Midjourney或DALL-E 3相比顯得遜色。因此,該模型很容易生成解剖結(jié)構(gòu)不正確的視覺畸形圖像。

在Reddit上,一個名為“Is this release supposed to be a joke? [SD3-2B]”的帖子詳細描述了SD3 Medium在渲染人類,特別是人類四肢如手和腳方面的顯著失敗。另一個名為“Why is SD3 so bad at generating girls lying on the grass?”的帖子則展示了整個身體的類似問題。

傳統(tǒng)上,AI圖像生成器在生成手部圖像時一直面臨挑戰(zhàn),因為早期訓練數(shù)據(jù)集中的好例子不足。但最近,幾個圖像合成模型似乎已經(jīng)克服了這個問題。從這個意義上說,SD3對聚集在Reddit上的圖像合成愛好者來說,似乎是一個巨大的倒退,尤其是與去年11月發(fā)布的SD XL Turbo相比。

“StableDiffusion曾與Midjourney競爭,現(xiàn)在它看起來就像個笑話。至少我們的數(shù)據(jù)集是安全和倫理的!”一位Reddit用戶寫道。

AI圖像愛好者將Stable Diffusion 3的人體解剖失敗歸咎于Stability堅持從SD3訓練數(shù)據(jù)中過濾掉成人內(nèi)容(通常稱為“NSFW”內(nèi)容)。一位Reddit用戶在帖子中寫道:“相信與否,嚴格審查模型也會去除人體解剖內(nèi)容,所以……這就是發(fā)生的事情?!?/p>

基本上,每當用戶提示集中在AI模型訓練數(shù)據(jù)集中未能很好代表的概念時,圖像合成模型將會盡力解釋用戶的要求。而有時,這會變得非??膳?。

2022年發(fā)布的Stable Diffusion 2.0也曾在描繪人類方面出現(xiàn)類似問題,AI研究人員很快發(fā)現(xiàn),審查包含裸體的成人內(nèi)容會嚴重阻礙AI模型生成準確的人體解剖能力。當時,Stability AI通過SD 2.1和SD XL逆轉(zhuǎn)了這一過程,重新獲得了一些因強烈過濾NSFW內(nèi)容而失去的能力。

另一個在模型預訓練期間可能出現(xiàn)的問題是,有時研究人員用來移除數(shù)據(jù)集中成人圖像的NSFW過濾器過于苛刻,意外移除了可能并不冒犯的圖像,剝奪了模型對某些情況下人類形象的描繪。

“[SD3]只要圖片中沒有人類就沒問題,我認為他們改進的nsfw過濾器決定任何類人形象都是nsfw,”一位Reddit用戶在該話題中寫道。

我們在Hugging Face上使用免費的SD3在線演示,運行提示并看到了與其他人報告類似的結(jié)果。例如,提示“一個男人展示他的手”返回了一張男人舉起兩只巨大的反手的圖像,盡管每只手至少有五個手指。

Stability公司的困境

Stability在二月宣布了Stable Diffusion 3,并計劃將其提供為各種模型大小。今天發(fā)布的是“Medium”版本,一個擁有20億參數(shù)的模型。除了在Hugging Face上提供的權(quán)重外,它們還可以通過公司的Stability Platform進行實驗。這些權(quán)重可以免費下載和非商業(yè)用途使用。

在二月宣布之后,SD3模型權(quán)重的發(fā)布延遲引發(fā)了關于技術問題或管理不善的謠言。Stability AI作為公司最近陷入困境,其創(chuàng)始人兼CEO Emad Mostaque在三月辭職,隨后進行了一系列裁員。在此之前,三位關鍵工程師——Robin Rombach、Andreas Blattmann和Dominik Lorenz——離開了公司。其困境可以追溯到更早,2023年以來,公司財務狀況不佳的消息一直在流傳。

對于一些Stable Diffusion的粉絲來說,Stable Diffusion 3 Medium的失敗是公司管理不善的視覺體現(xiàn),明顯顯示出公司狀況惡化的跡象。盡管公司尚未申請破產(chǎn),但在看到SD3 Medium后,有些用戶開了黑色幽默的玩笑:

“看來現(xiàn)在他們可以在安全且合倫理的方式下破產(chǎn)了”

盡管如此,Stability AI仍在努力通過改進和發(fā)布新的模型來克服這些挑戰(zhàn)。對于AI圖像合成愛好者和研究人員來說,模型的每一次進步和每一次失敗都是技術發(fā)展的重要一環(huán)。隨著技術的不斷發(fā)展和數(shù)據(jù)集的不斷改進,未來的AI圖像生成模型可能會更好地處理這些問題。

本文譯自 Ars Technica,由 BALI 編輯發(fā)布。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )

贊助商
2024-06-16
Stable Diffusion 3發(fā)布,但AI生成的人體畫風變得奇怪起來
Stable Diffusion 3發(fā)布后,因生成的畸形人體圖像被網(wǎng)友嘲諷為“倒退”,引發(fā)廣泛討論。

長按掃碼 閱讀全文