亚洲av无码成人专区片在线观看,亚洲av岛国动作片在线观看,少妇,喷水,亚洲av成人无遮挡网站在线观看,天堂网www资源在线

恭喜你成為UI中國(guó)推薦設(shè)計(jì)師 (詳情)
//百度統(tǒng)計(jì) 20220402 uicn

您的意見(jiàn)是我們 UI 中國(guó)進(jìn)步的動(dòng)力!
點(diǎn)擊立即反饋按鈕,發(fā)表您的意見(jiàn)!
立即反饋
QQ群反饋
您也可以加入U(xiǎn)I中國(guó)官方反饋群進(jìn)行反饋!
群號(hào):302892100
備注:反饋問(wèn)題后@管理員能讓我們及時(shí)了解您的意見(jiàn)

提交需求

賽事與廣告咨詢合作,請(qǐng)?zhí)顚?xiě)需求表單,我們會(huì)在第一時(shí)間與您聯(lián)系!

0/20
0/200

設(shè)計(jì)大賽

  • 設(shè)計(jì)大賽
  • 發(fā)布廣告
  • 發(fā)布招聘
  • 其它需求

提交完成
感謝您對(duì)UI中國(guó)的支持和信賴!
近萬(wàn)字解讀,Stable Diffusion的底層邏輯!
10.7°

前言

事先聲明!本文沒(méi)有苦澀難懂的各種專業(yè)術(shù)語(yǔ)和代碼公式,請(qǐng)大家放心食用!!

在過(guò)去的一年里,AIGC在繪畫(huà)領(lǐng)域的蓬勃發(fā)展對(duì)設(shè)計(jì)行業(yè)的沖擊相信大家都有目共睹。各個(gè)公司都在要求設(shè)計(jì)師必須會(huì)使用 AIGC 的相關(guān)工具,其中以 Stable Diffusion 為基礎(chǔ)的系列工具和 Midjourney 應(yīng)用范圍最廣。AI繪畫(huà)領(lǐng)域能夠取得如此巨大的進(jìn)展,很大的功勞要?dú)w屬于Stability AI發(fā)布了開(kāi)源的Stable Diffusion。它除了降低硬件要求,使其可以在相對(duì)普通的硬件上運(yùn)行外。也正是因?yàn)樗拈_(kāi)源性,應(yīng)運(yùn)而生的相關(guān)研究和為了更好控制模型的各種插件才發(fā)展的尤為繁榮。本文也 將從 Stable Diffusion 從發(fā),聊一聊它的工作原理,希望能夠幫助大家更好的理解和使用它。


為什么需要了解 SD 的工作原理

在使用 Stable Diffusion相關(guān)工具時(shí),并非一定需要了解它的工作原理,但了解它對(duì)后續(xù)的使用會(huì)很有幫助。當(dāng)遇到生成圖片質(zhì)量低,各種參數(shù)不知道怎么調(diào)整時(shí),不會(huì)舉手無(wú)措。因?yàn)槟銜?huì)知道它的配置參數(shù)比如:種子、采樣器、步數(shù)、CFG 比例或去噪強(qiáng)度等是如何去影響最終生成圖片的,能夠幫助我們自定義調(diào)整算法以適應(yīng)特定的設(shè)計(jì)需求和偏好,從而生成更符合預(yù)期的視覺(jué)內(nèi)容。

在接下來(lái)的內(nèi)容中,我會(huì)通過(guò)類比的方式讓大家了解 Stable Diffusion的內(nèi)部工作原理,以及它是如何能夠通過(guò)提示詞、圖像參考等輸入條件來(lái)生成各種創(chuàng)意圖像的,再次強(qiáng)調(diào)本文沒(méi)有苦澀難懂的各種專業(yè)術(shù)語(yǔ)和代碼公式,幾乎適合所有人。如果你在使用 Stable Diffusion 生圖得時(shí)候,出圖總是差強(qiáng)人意,相信看完這篇文章會(huì)對(duì)你有很大的幫助。


生成式模型的發(fā)展

生成模型發(fā)展初期主要是基于生成對(duì)抗網(wǎng)絡(luò)(GAN),但在2021年隨著擴(kuò)散模型性能的顯著提升和生成質(zhì)量的大幅度改進(jìn)逐漸成為主流。因?yàn)樗咏说乃季S模式,能夠?qū)崿F(xiàn)更自然和多樣化的生成內(nèi)容。與傳統(tǒng)的GAN相比,擴(kuò)散模型在生成樣本的質(zhì)量、多樣性和穩(wěn)定性上具有一定的優(yōu)勢(shì)。并且在跨模態(tài)應(yīng)用中表現(xiàn)出色,例如OpenAI的GLIDE和DALL·E 2、谷歌的Imagen、以及Stability AI的Stable Diffusion等都是基于擴(kuò)散模型的應(yīng)用,凸顯了它在文本到圖像生成中的強(qiáng)大能力。下面我們先來(lái)介紹一下兩者的工作原理,放心你一定能看懂!


生成對(duì)抗網(wǎng)絡(luò)(GAN)的工作原理

生成對(duì)抗網(wǎng)絡(luò)(GAN)是由兩部分組成的深度學(xué)習(xí)模型,它的核心思想是讓兩個(gè)網(wǎng)絡(luò)一個(gè)生成器(Generator)和一個(gè)判別器(Discriminator)相互對(duì)抗,以此來(lái)提高生成數(shù)據(jù)的質(zhì)量。

接下來(lái)我們用設(shè)計(jì)師做比喻來(lái)解釋一下生成對(duì)抗網(wǎng)絡(luò)(GAN)的工作原理,想象一個(gè)由兩位設(shè)計(jì)師組成的團(tuán)隊(duì):一位是設(shè)計(jì)實(shí)習(xí)生(生成器),另一位是設(shè)計(jì)總監(jiān)(判別器)。他們相互配合完成客戶所要求的視覺(jué)作品。

設(shè)計(jì)實(shí)習(xí)生(生成器):

實(shí)習(xí)生的職責(zé)是創(chuàng)造出新的視覺(jué)作品,比如海報(bào)、廣告等。他的要求是制作出讓客戶滿意漂亮的作品,以至于讓客戶相信是出自一位設(shè)計(jì)大師之手。

在初始階段他的作品可能看起來(lái)比較生硬和不自然,很容易被識(shí)別出是新手做的。

設(shè)計(jì)總監(jiān)(判別器):

總監(jiān)主要是評(píng)價(jià)實(shí)習(xí)生的作品,并判斷它畫(huà)面是否和諧,字體、顏色等設(shè)計(jì)是否合理??偙O(jiān)具備視覺(jué)鑒賞的敏感眼光,能夠識(shí)別出畫(huà)面中的問(wèn)題。

他的目標(biāo)是確保提交的方案在視覺(jué)上沒(méi)有問(wèn)題,畫(huà)面表達(dá)符合客服要求,保持高質(zhì)量的方案產(chǎn)出。

工作流程:

第一步: 設(shè)計(jì)實(shí)習(xí)生提交他的初步設(shè)計(jì)給設(shè)計(jì)總監(jiān)。早期的設(shè)計(jì)可能很容易出現(xiàn)視覺(jué)上的問(wèn)題,因?yàn)槿狈ぷ鹘?jīng)驗(yàn)和設(shè)計(jì)技法,需要不斷地學(xué)習(xí)。

第二步: 設(shè)計(jì)總監(jiān)審核這些設(shè)計(jì),并提供反饋,指出畫(huà)面哪些部分有問(wèn)題或者沒(méi)有很好的表達(dá)客戶的需求。在這個(gè)過(guò)程中會(huì)逐漸提高對(duì)實(shí)習(xí)生的要求。

第三步: 設(shè)計(jì)實(shí)習(xí)生根據(jù)這些反饋調(diào)整他的創(chuàng)作方法,學(xué)習(xí)新的技術(shù),嘗試改進(jìn)他的畫(huà)面,讓它們更加精細(xì)美觀,能夠更好的表達(dá)客戶的需求。

重復(fù): 這個(gè)過(guò)程不斷重復(fù),實(shí)習(xí)生不斷改進(jìn)他的作品,而總監(jiān)也在不斷提高對(duì)實(shí)習(xí)生的作品的視覺(jué)要求。

結(jié)果:

經(jīng)過(guò)多次迭代后,如果實(shí)習(xí)生能夠創(chuàng)造出,即使是非常有經(jīng)驗(yàn)的設(shè)計(jì)總監(jiān)都難以挑出問(wèn)題的作品。到這一步就可以說(shuō)生成對(duì)抗網(wǎng)絡(luò)(GAN)已經(jīng)訓(xùn)練完成了,生成器(設(shè)計(jì)實(shí)習(xí)生)已經(jīng)能夠制作出足夠優(yōu)秀的視覺(jué)作品,判別器(設(shè)計(jì)總監(jiān))的審美和視覺(jué)評(píng)判能力也得到了提升。通過(guò)兩者不斷地提高要求,GAN用于視覺(jué)生成,能夠產(chǎn)生質(zhì)量非常高的圖像。


生成對(duì)抗網(wǎng)絡(luò)(GAN)被逐漸放棄的原因

  • GAN的訓(xùn)練不穩(wěn)定:設(shè)計(jì)總監(jiān)過(guò)于挑剔,對(duì)設(shè)計(jì)師的每一項(xiàng)作品都持懷疑態(tài)度,并拒絕接受大部分設(shè)計(jì)方案。設(shè)計(jì)師走捷徑為了通過(guò)審查,設(shè)計(jì)師開(kāi)始不斷重復(fù)相似的設(shè)計(jì)作品(模式崩潰),最終喪失了創(chuàng)造力和多樣性。
  • 難以評(píng)估設(shè)計(jì)質(zhì)量:缺乏明確標(biāo)準(zhǔn),沒(méi)有清晰的設(shè)計(jì)審美標(biāo)準(zhǔn),很難判斷設(shè)計(jì)師的作品是否符合期望。設(shè)計(jì)總監(jiān)的個(gè)人喜好,有時(shí)會(huì)因?yàn)樽陨淼膶徝榔脤?duì)設(shè)計(jì)師的作品產(chǎn)生偏見(jiàn),從而影響作品質(zhì)量的評(píng)估。
  • 對(duì)資源要求高:設(shè)計(jì)師與設(shè)計(jì)總監(jiān)的持續(xù)對(duì)抗需要大量的精力和時(shí)間,使得整個(gè)設(shè)計(jì)過(guò)程漫長(zhǎng)而耗費(fèi)資源。設(shè)計(jì)師需要反復(fù)與總監(jiān)溝通調(diào)整,溝通成本較高。


與GAN不同,擴(kuò)散模型就像是擁有明確方向且穩(wěn)定的設(shè)計(jì)團(tuán)隊(duì),通過(guò)漸進(jìn)式的優(yōu)化逐步達(dá)成高質(zhì)量的設(shè)計(jì)效果。下面我們繼續(xù)來(lái)看一下擴(kuò)散模型的工作原理。


擴(kuò)散模型(Diffusion Models) 的工作原理

擴(kuò)散模型之所以這樣命名,是因?yàn)樗纳蛇^(guò)程和物理學(xué)上的分子擴(kuò)散過(guò)程非常相似,就像把冰融化為水再把水凍結(jié)成冰,水會(huì)在這個(gè)過(guò)程中逐漸移動(dòng)和擴(kuò)散。

擴(kuò)散模型也是由主要的兩個(gè)步驟組成,正向擴(kuò)散和反向擴(kuò)散,正向擴(kuò)散是逐步增加噪聲直至原始圖像沒(méi)有任何可以辨別的特征,反向擴(kuò)散是逐步去除噪聲直至恢復(fù)原始的數(shù)據(jù)讓畫(huà)面可辨認(rèn)。

看不懂沒(méi)有關(guān)系,同樣我們做個(gè)比喻,比如用文物修復(fù)師的角色來(lái)形容擴(kuò)散模型的工作原理,文物修復(fù)師的工作是修復(fù)一件經(jīng)歷了嚴(yán)重?fù)p壞的古老珍貴文物。


損壞模擬(正向擴(kuò)散的加噪過(guò)程):

修復(fù)師修復(fù)文物的時(shí)候,首先需要完全了解損壞的過(guò)程。因此他采取了一個(gè)看似逆向的方法:他先對(duì)一個(gè)完好無(wú)損的相似文物進(jìn)行人工老化和損壞處理,逐步施加各種損害,比如裂紋、掉漆、褪色等,模擬多年來(lái)可能發(fā)生的自然磨損。

這個(gè)過(guò)程相當(dāng)于擴(kuò)散模型中的正向過(guò)程,即逐步增加噪聲。這里的“噪聲”不是字面意義上的聲音,而是指對(duì)文物中的各種損壞因素(裂紋、掉漆、褪色等),讓它從完好的狀態(tài)逐漸變?yōu)橥耆珦p壞的狀態(tài)。

文物修復(fù)(反向擴(kuò)撒的去噪過(guò)程):

接下來(lái)就到了修復(fù)師把老化的文物恢復(fù)到它原始未受損的狀態(tài)。這需要非常高超的技術(shù)和對(duì)文物原始狀態(tài)的深刻理解。修復(fù)師會(huì)使用各種工具和化學(xué)物質(zhì),仔細(xì)地去除每一處人為的損壞,包括填補(bǔ)裂縫、重新上色、并修復(fù)褪色和磨損的部分。

這一過(guò)程對(duì)應(yīng)擴(kuò)散模型中的逆向過(guò)程,即逐步去除噪聲。在這里,“去除噪聲”意味著修復(fù)師在消除之前刻意添加的所有損壞的同時(shí),逐步還原文物的原始狀態(tài)。

噪聲:

在這個(gè)過(guò)程中,"噪聲"指的是刻意施加到文物上的各種損壞因素。

這些“噪聲”被有計(jì)劃地逐步加入到文物的破壞中,來(lái)模擬文物被隨機(jī)破壞。這個(gè)過(guò)程的目的是,在修復(fù)訓(xùn)練中創(chuàng)建一個(gè)從完全有序到完全無(wú)序的連續(xù)過(guò)程,以便文物修復(fù)師學(xué)習(xí)如何把隨機(jī)破壞的文物重新恢復(fù)出完好的、精美的原始狀態(tài)。

噪聲預(yù)測(cè)器和采樣:

噪聲預(yù)測(cè)器和采樣在反向擴(kuò)散中是不可或缺的關(guān)鍵技術(shù)。

噪聲預(yù)測(cè)器可以想象成一個(gè)高級(jí)的診斷工具,文物修復(fù)師使用它來(lái)分析藝術(shù)品的損壞程度和類型。這個(gè)工具能夠精確地確定每一處損傷的位置、深度和影響,為修復(fù)工作提供依據(jù)。

采樣過(guò)程可以視為修復(fù)過(guò)程中的實(shí)際操作步驟,每一步操作都基于噪聲預(yù)測(cè)器提供的數(shù)據(jù)。由于解決某一個(gè)破損的問(wèn)題有很多種方法,所以采樣的實(shí)際操作步驟也可以分為很多種。對(duì)應(yīng)到模型中就是各種采樣器,比如:Euler, Euler Ancestral, DDIM, DPM++ 2M Karras等。再簡(jiǎn)單點(diǎn)來(lái)說(shuō),比如同一道數(shù)學(xué)題有多種解法,每一種解法就是一個(gè)個(gè)的采樣器。

通過(guò)上面的形容,把擴(kuò)散模型的“加噪”和“去噪”用文物修復(fù)的過(guò)程來(lái)描述,相信大家應(yīng)該都懂了,其中文物修復(fù)師不僅要理解文物人為加速老化過(guò)程,還要掌握如何從極端損壞中恢復(fù)出文物的原始狀態(tài)。經(jīng)過(guò)這樣不斷的雙重過(guò)程,加上修復(fù)工具(噪聲預(yù)測(cè)器和采樣等)的使用,先破壞再修復(fù)的方式,能夠讓文物修復(fù)師的能力逐漸提升,達(dá)到高質(zhì)量還原文物的目的。回到擴(kuò)散模型,就是讓擴(kuò)散模型在不斷的加噪和去噪中不斷訓(xùn)練,提高模型的能力,讓其能夠生成更高質(zhì)量的圖片或其它逼真數(shù)據(jù)的目的。

我們經(jīng)常聽(tīng)到的Stable Diffusion,與擴(kuò)散模型(Diffusion Models)并不相等,擴(kuò)散模型是通用的底層技術(shù)。而Stable Diffusion是一種實(shí)現(xiàn)了特定技術(shù)應(yīng)用的擴(kuò)散模型,OK,下面我們繼續(xù)來(lái)看一下Stable Diffusion 的工作流程。


Stable Diffusion 的工作流程

Stable Diffusion雖然與擴(kuò)散模型的基本原理相同,但它更注重條件生成,名稱中的Stable(穩(wěn)定的)也強(qiáng)調(diào)了這一點(diǎn),也正是因?yàn)闂l件生成的各項(xiàng)技術(shù),才能讓模型更接近我們的想法來(lái)生成圖片,所以條件生成也是Stable Diffusion的核心功能。

條件生成

條件生成技術(shù)在視覺(jué)領(lǐng)域扮演著核心角色,我們最常使用的文生圖(Text-to-Image)就是其最基礎(chǔ)的功能之一, 除了文本到圖像的轉(zhuǎn)換。如圖像到圖像(Image-to-Image)、圖像修復(fù)(Inpainting)、圖像擴(kuò)展(Outpainting)以及深度到圖像(Depth-to-Image)等。這些技術(shù)都在各個(gè)不同的方向解決控制視覺(jué)和圖形的任務(wù),下面來(lái)看一下它們具體是如何工作的。

文生圖(Text-to-Image):文本到圖像的轉(zhuǎn)換

將文本轉(zhuǎn)換為計(jì)算機(jī)能夠理解的內(nèi)容是Stable Diffusion最基本的功能,也就是我們常說(shuō)的文生圖功能。它由以下幾部分組成。

分詞器(Embedding):

由于計(jì)算機(jī)不能直接理解人類的語(yǔ)言,只能處理數(shù)字和符號(hào)。分詞器的任務(wù)是把我們?nèi)祟惖恼Z(yǔ)言轉(zhuǎn)換成計(jì)算機(jī)可以理解的數(shù)字表示。舉個(gè)例子,比如:“一只在草地上跳舞的貓”,經(jīng)過(guò)分詞器處理后可能是:‘一只’,‘在’,‘草地上’,‘跳舞’,‘的’,‘貓’。通過(guò)預(yù)先定義的詞匯表,將每個(gè)詞語(yǔ)映射成一個(gè)唯一的數(shù)字編號(hào)。比如:{‘一只’: 1,‘在’: 2, ‘草地上’: 3,‘跳舞’: 4,‘的’:5,‘貓’: 6}。

嵌入(Embedding):

分詞器把文本處理好以后,嵌入將數(shù)字編號(hào)轉(zhuǎn)換為計(jì)算機(jī)可以處理的數(shù)字向量。嵌入向量可以讓模型理解文本的含義,并進(jìn)行后續(xù)的任務(wù),例如文本分類、翻譯或圖像生成,也就是賦予詞匯意義。

語(yǔ)言-圖像對(duì)比預(yù)訓(xùn)練模型-CLIP(Contrastive Language-Image Pre-training):

通過(guò)學(xué)習(xí)大量的圖像和對(duì)應(yīng)的文本描述,CLIP可以將兩者聯(lián)系在一起,使得模型能夠根據(jù)圖像找到相關(guān)的文本描述,根據(jù)文本描述找到相關(guān)的圖像。為計(jì)算機(jī)提供理解自然語(yǔ)言和視覺(jué)內(nèi)容之間關(guān)聯(lián)的能力,來(lái)指導(dǎo)圖像的生成。

類標(biāo)簽(Class Labels)

類標(biāo)簽作為條件信息,可以幫助模型生成特定類別的圖像。它作為一種補(bǔ)充信息能夠提高生成圖像的準(zhǔn)確性。比如:“一支鮮花插在牛糞上”,可以使用“花”這個(gè)標(biāo)簽來(lái)確保生成圖像中包含花的元素。還可以與特定的風(fēng)格相關(guān)聯(lián),比如“漫畫(huà)風(fēng)格”“賽博朋克”等,或者與其他類別標(biāo)簽結(jié)合,比如:“賽博朋克風(fēng)格的花插在牛糞上”,模型可以學(xué)習(xí)到每個(gè)類標(biāo)簽與特定圖像風(fēng)格的關(guān)聯(lián)性,從而生成符合標(biāo)簽描述的風(fēng)格圖像。

雖然在Stable Diffusion中主要依賴于文本提示(prompt)來(lái)指導(dǎo)圖像生成,但類標(biāo)簽在某些應(yīng)用場(chǎng)景中可以進(jìn)一步加強(qiáng)生成圖像的準(zhǔn)確性和多樣性。

CFG Scale值(Classification Free Guidance Scale)

CFG Scale值是一種調(diào)節(jié)參數(shù),它可以控制生成圖像多大程度上符合我們給的文本描述或其他條件,數(shù)值越大與提示詞的匹配度越高,反之越小。CFG Scale值的范圍一般在5到15之間,較高值通常在7-12可以生成更符合描述的圖像,較低在5以下,可以生成更具創(chuàng)意的多樣化圖像。在WebUI中CFG Scale值過(guò)高出現(xiàn)的過(guò)擬合現(xiàn)象,就是模型在盡可能的把提示詞中的元素全部畫(huà)出來(lái),呈現(xiàn)的效果細(xì)節(jié)會(huì)非常多效果很差,這種情況是因?yàn)椴蓸拥牡綌?shù)不夠,不能夠畫(huà)出所有的細(xì)節(jié),提高迭代步數(shù)你會(huì)發(fā)現(xiàn)畫(huà)面會(huì)比低CFG Scale值更加精細(xì),畫(huà)面也不會(huì)出現(xiàn)崩壞,但出圖占用更多的算力,出圖時(shí)間很長(zhǎng)。

圖生圖(Image-to-Image)

圖生圖在Stable Diffusion中可以實(shí)現(xiàn)圖像風(fēng)格轉(zhuǎn)換、圖像修復(fù)、圖像擴(kuò)展、圖像編輯與變化、草圖到完整圖像等工作,它是以用戶提供初始圖像作為生成的基礎(chǔ),模型從初始圖像開(kāi)始,逐步增加或去除噪聲,結(jié)合文本描述等其它條件逐漸從初始圖像變?yōu)榉夏繕?biāo)條件的最終圖像。

圖像深度(Depth-to-Image)

利用深度傳感器或者深度估計(jì)模型來(lái)生成圖像深度圖,把圖像的深度信息作為條件引導(dǎo),可以讓模型理解圖像中各個(gè)物體到攝像機(jī)的距離,能夠更好地把握整個(gè)場(chǎng)景的幾何結(jié)構(gòu),提高圖像的準(zhǔn)確性。

ControlNet 

ControlNet 是一種神經(jīng)網(wǎng)絡(luò),它以Stable Diffusion的U-Net架構(gòu)作為基礎(chǔ),加入額外的網(wǎng)絡(luò)分支,用于處理特定的條件輸入??梢岳斫鉃樵赟table Diffusion本身的條件輸入外加入額外的限制條件,ControlNet通過(guò)額外的控制輸入(如深度圖、姿態(tài)圖、草圖等),可以實(shí)現(xiàn)對(duì)圖像生成過(guò)程的精確控制。

潛在空間(Latent Space)

潛在空間在Stable Diffusion中起著連接高維圖像空間與條件信息的橋梁作用。

就像是PS,文本描述、類標(biāo)簽、ControlNet等就像是ps里的各個(gè)功能,并且設(shè)置好了動(dòng)作,然后點(diǎn)一下就生成圖像

我們可以把它看做是一個(gè)巨大的存滿各種各樣畫(huà)作的收藏館,這里的畫(huà)不是真正的畫(huà),而是包含圖像主要特征的各種元素,就像一幅沒(méi)有拼起來(lái)的拼圖。Stable Diffusion是這個(gè)收藏館的管理員,文本描述、類標(biāo)簽、ControlNet 等就像是尋找指南,告訴管理員(Stable Diffusion)要尋找那一幅畫(huà)作,最終根據(jù)各種要求快速的找到符合描述的畫(huà)作。

變分自編碼器(Variational Autoencoder,簡(jiǎn)稱VAE)

VAE是一種生成模型,用于學(xué)習(xí)數(shù)據(jù)的潛在表示并生成類似的樣本。我們同樣以畫(huà)作收藏館做比喻來(lái)理解一下它,VAE是收藏館的理貨員,負(fù)責(zé)藏館的畫(huà)作的擺放和目錄的整理,它能夠幫助管理員(Stable Diffusion)快速找到目標(biāo)畫(huà)作,由于畫(huà)作是一個(gè)個(gè)拼圖塊,它還需要將其拼成完整的圖像交給管理員。在Stable Diffusion的工作流程中,VAE起著潛在空間和擴(kuò)散模型之間的橋梁作用。

工作流程 

潛在噪聲張量生成:基于固定或隨機(jī)種子生成具有潛在噪聲的張量;文物修復(fù)師拿到一件被破壞掉的文物,這是他開(kāi)始工作的基礎(chǔ)。

條件嵌入生成:將文本描述、深度圖或類標(biāo)簽等條件信息轉(zhuǎn)換為嵌入向量,以多個(gè)維度存儲(chǔ)特征。文本描述、深度圖、類標(biāo)簽等就像修復(fù)師的修復(fù)指南,幫助他知道文物原來(lái)樣子。

CLIP Transformer處理:使用交叉注意力技術(shù)計(jì)算嵌入向量之間的關(guān)系,提供圖像生成的指導(dǎo)。CLIP Transformer就像修復(fù)師的“詳情說(shuō)明書(shū)”,將修復(fù)指南轉(zhuǎn)化為詳細(xì)的修復(fù)步驟。

U-Net去噪過(guò)程:U-Net根據(jù)CLIP Transformer的結(jié)果引導(dǎo)去噪過(guò)程,以逐步生成符合目標(biāo)描述的潛在向量。U-Net就像修復(fù)師,根據(jù)轉(zhuǎn)換好的詳情說(shuō)明逐步還原被破壞的文物,讓它逐漸顯露出文物完好的形象。

采樣與噪聲調(diào)度器:采樣算法生成噪聲并從初始張量中減去,噪聲調(diào)度器控制去噪的非線性進(jìn)度。采樣算法和噪聲調(diào)度器就像修復(fù)師的“工作計(jì)劃”,決定每次修復(fù)的細(xì)節(jié)和順序。

VAE與潛在空間:

編碼器:VAE編碼器將原始圖像壓縮成潛在向量,形成潛在空間中的索引。VAE編碼器就像修復(fù)師的“修復(fù)指南目錄”,負(fù)責(zé)將文物的形象特征記錄下來(lái)。

潛在空間:存儲(chǔ)由編碼器生成的潛在向量,是圖像的低維特征表示空間。潛在空間就像修復(fù)師的“特征庫(kù)”,存放著所有文物的形象特征。

解碼器:VAE解碼器將潛在向量解碼成完整的高分辨率圖像。VAE解碼器就像“文物特征組裝器”,將文物的特征轉(zhuǎn)換成完整的文物形象。

最終圖像生成:去噪過(guò)程完成后,張量通過(guò)VAE解碼器離開(kāi)潛在空間,文物修復(fù)師通過(guò)最終的修復(fù)步驟,呈現(xiàn)出完整的文物形象。


寫(xiě)在最后

作為一款開(kāi)源工具,Stable Diffusion為我們提供了強(qiáng)大的可定制和控制能力,它不僅降低了硬件要求,讓大部分人都可以使用外,還通過(guò)豐富的插件生態(tài)系統(tǒng)拓展了模型的應(yīng)用范圍。了解它的工作原理,能幫助我們更好地調(diào)整參數(shù),提高圖像質(zhì)量,滿足特定的設(shè)計(jì)需求和偏好。

在當(dāng)前的環(huán)境下,熟悉使用AIGC技術(shù)已經(jīng)成為企業(yè)要求的必備能力,它不僅大幅降低了設(shè)計(jì)內(nèi)容的制作成本與時(shí)間,還拓展提高了設(shè)計(jì)的能力邊界,不再需要設(shè)計(jì)師為某種風(fēng)格而去學(xué)習(xí)一門技法。但也降低了設(shè)計(jì)師工作的門檻,所以保持終身學(xué)習(xí)緊跟前沿技術(shù),才能立于不敗之地,愿你我共勉!

今天就寫(xiě)到這里,bay~

Powered by Froala Editor

更新:2024-09-11

收藏

2人已收藏

五幺六

資深視覺(jué)設(shè)計(jì)師

  • 7

    作品

  • 9

    粉絲

  • 3

    關(guān)注

  • AI提效資源包|DeepSeek 50萬(wàn)Token+Prom
  • 從入門到精通-Midjourney官網(wǎng)終極教程
  • 盤點(diǎn)2023年SD-GUI工具及其創(chuàng)作生態(tài)
  • 作為品牌傳遞的重要媒介,文案應(yīng)該怎么玩?

    猜你喜歡

      近萬(wàn)字解讀,Stable Diffusion的底層邏輯!

      10.7°

      你確定要舉報(bào)近萬(wàn)字解讀,Stable Diffusion的底層邏輯!?

      如果查出惡意舉報(bào),十天內(nèi)禁止提交任何舉報(bào)申請(qǐng)。

      0/200

      上傳證據(jù): 超過(guò)10M的附件請(qǐng)使用網(wǎng)盤地址

      點(diǎn)擊上傳附件

      對(duì)誰(shuí)可見(jiàn):

      全部設(shè)計(jì)師
      • 全部設(shè)計(jì)師
      • 推薦設(shè)計(jì)師和認(rèn)證設(shè)計(jì)師

      您確認(rèn)要推薦?

      該作品發(fā)布時(shí)間:2024年09月11日

      評(píng)分

      完整度

      啟發(fā)性

      勤奮性

      排版布局

      推薦心得

      建議20-200字以內(nèi)

      0/200

      2
      2
      1

      賬號(hào)或密碼錯(cuò)誤,請(qǐng)重新輸入

      賬號(hào)或密碼錯(cuò)誤,請(qǐng)重新輸入

      登錄

      手機(jī)號(hào)

      發(fā)送驗(yàn)證碼 120s 驗(yàn)證碼錯(cuò)誤

      登錄
      第三方賬號(hào)登錄