實(shí)話講,AI繪畫的新功能讓我有點(diǎn)焦慮
(本文圖片大多由stable-diffusion生成)
去年10月,我寫了一篇《AI繪畫真的在影響內(nèi)容創(chuàng)意行業(yè)|十一漫談》。當(dāng)時(shí),AI繪畫雖然驚艷,但是在實(shí)用時(shí)仍面臨問題,比如畫手非常奇怪、缺乏真實(shí)性、可控性不足、上手門檻高。
然而在最近幾個(gè)月,AI繪畫進(jìn)步實(shí)在太快了。秒出線稿、上色補(bǔ)完、風(fēng)格學(xué)習(xí)、手部骨骼、真人換裝......真不知道幾個(gè)月后能走到哪一步。雖然感覺離失業(yè)不遠(yuǎn)了,但這就像是一個(gè)新玩具,玩起來樂此不疲,在這里想分享一些我認(rèn)為有前景的AI繪畫功能和實(shí)用方向。如果有興趣,歡迎后臺(tái)私信交流。
Part1「算力有盡,模型無窮」
自從stable-diffusion算法開源之后,浩浩蕩蕩的群眾就加入了“煉丹”大軍,想要的模型還沒有,就自己造。一時(shí)間云端算力漲價(jià)了,不少學(xué)生黨表示想哭。
只能說氪金就是猛,隨著大量網(wǎng)友參與“煉丹”,基礎(chǔ)大模型展開了不少分支,基于亞洲人臉為代表的大模型Chilloutmix更是引發(fā)了關(guān)于真實(shí)人物繪圖道德倫理的熱議。
網(wǎng)友們做的多種模型封面我也嘗試了多各種模型,以網(wǎng)友@xiaolxl 在civitai上分享的國(guó)風(fēng)3模型為例,通過這一模型,可以繪制出更有中國(guó)華麗古風(fēng)風(fēng)格的圖片、古風(fēng)游戲角色,并具有2.5D的質(zhì)感。
模型參考圖跑了一堆之后精挑細(xì)選一張放過來。
相較于我在上一期產(chǎn)出的圖片,可以明顯看出質(zhì)量的上升,甚至說在畫質(zhì)修復(fù)提升后,商用都不夸張。當(dāng)然除了我熟練度的微小提升之外,主要是大模型打的底非常好。而很多模型的塑造,在目前看只是時(shí)間和素材量的問題。聽說不少游戲公司已經(jīng)開始試用這個(gè)方法出圖了,省下很多成本。
如果說大模型是創(chuàng)作的基礎(chǔ),定義了產(chǎn)出圖片范圍以及風(fēng)格,那lora則是在大模型下的濾鏡。相較動(dòng)輒10個(gè)G的大模型,幾百M(fèi)的LORA則更為靈巧。
LORA,即Low-Rank Adaptation of Large Language Models,直譯為大語(yǔ)言模型的低階適應(yīng)。重點(diǎn)是對(duì)大模型,進(jìn)行一些微調(diào),更側(cè)重生成更具有專屬風(fēng)格、細(xì)節(jié)的圖片。其依托大模型存在,訓(xùn)練所需的圖片/算力量均相對(duì)較小。今年2月,一組來自@勘云工造的照片,在網(wǎng)上掀起了不少波瀾,作者更是得到了各路頂級(jí)畫師、模型師、制作人、coser的關(guān)注,無他,太真實(shí)了。肉眼難以辨識(shí)的相似,甚至被某些網(wǎng)站直接拿去做了廣告圖片。
隨之而來的是賽博coser正式走上舞臺(tái),在小紅書等社交平臺(tái)上,以ai圖為賣點(diǎn)的自媒體賬號(hào)也肆意生長(zhǎng),成為了一個(gè)新的內(nèi)容方向。其實(shí)我也考慮過要不要做一個(gè),但是想到變現(xiàn)比較困難就暫時(shí)放棄了。此外,通過定制化的小模型或者補(bǔ)丁,生成特定風(fēng)格的圖片,則更加實(shí)用。
比如下方例圖,是用CharTurnerBeta - Lora ,來生成的三視圖。
以及AI模特?fù)Q裝,甚至有的只用給人偶拍照,就能替換生成,相信電商平臺(tái)提供類似服務(wù)也是遲早的,淘寶模特的需求,危啊。
(B站上的一個(gè)教程,方法還有很多)
Part2「創(chuàng)造新方式,和AI交流」
人與機(jī)器的溝通,一定要通過文字嗎?是否可以有一種其他語(yǔ)言?
在目前的習(xí)慣中,我們通常通過輸入文本prompt來控制AI的輸出,然而這一行為并不完美。雖然文本符合人類交流習(xí)慣,但是同一文本在不同語(yǔ)境有多種應(yīng)對(duì),也因此衍生出了更廣闊的釋義空間,比如魚香肉絲到底對(duì)應(yīng)一道菜,還是有絲狀鱗片的魚。(這不是玩笑,而是溝通方式導(dǎo)致的現(xiàn)狀,文生圖背后需要大量的標(biāo)注先行,耗時(shí)耗力。當(dāng)然,這只是個(gè)時(shí)間問題)一位網(wǎng)友在和我閑聊時(shí),提出了一個(gè)說法,畫圖時(shí)要有“窮舉”的精神,然而這可太不智能了。
因此,研究人員也試圖找到一些其他方式,來與AI溝通。2月初,斯坦福大學(xué)Lvmin Zhang and Maneesh 的論文《Adding Conditional Control to Text-to-ImageDiffusion Models》提出了一些方法和可能性。并且已經(jīng)得到了開源和實(shí)際應(yīng)用。
方式一:openpose 動(dòng)作姿態(tài)定制
首先可以選擇一張圖片,提取人物的關(guān)鍵肢體形態(tài)。
在這一步驟中,我們可以調(diào)整它的關(guān)聯(lián)骨架形態(tài)。隨后,添加關(guān)鍵詞,生成了一張新圖片。從面部朝向,腿部肢體動(dòng)作上看,可控性非常強(qiáng)。
方式二:canny 邊緣檢測(cè)提取輪廓
通過邊緣檢測(cè),根據(jù)已有圖片提取線稿,如有需要還可配合AI繪圖功能重新上色生成圖片。這在游戲原畫、室內(nèi)裝潢設(shè)計(jì)等等各個(gè)領(lǐng)域都將大放異彩。
除此之外,還有segmentation、deph等方式,可以提取材質(zhì)、距離景深等要素,以便于生成新的圖片,在這里就不一一列舉了。
總的來說,ai繪畫有太多可能性了。每天都有新變化,新應(yīng)用,這篇文章可能發(fā)布沒多久就會(huì)過時(shí)。但可以預(yù)見的是,在幾年內(nèi),大量的辦公室輕工作將被替代,生活將被重構(gòu),所有人都在浪潮之中。這場(chǎng)人文社科領(lǐng)域的工業(yè)革命,還遠(yuǎn)未來到高潮。
以上,是本期的主要內(nèi)容,后續(xù)還會(huì)不定期更新行業(yè)進(jìn)展,以及一期AI繪畫在廣告行業(yè)的實(shí)用指南,敬請(qǐng)期待。
轉(zhuǎn)載請(qǐng)?jiān)谖恼麻_頭和結(jié)尾顯眼處標(biāo)注:作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。
未經(jīng)授權(quán)嚴(yán)禁轉(zhuǎn)載,授權(quán)事宜請(qǐng)聯(lián)系作者本人,侵權(quán)必究。
本文禁止轉(zhuǎn)載,侵權(quán)必究。
授權(quán)事宜請(qǐng)至數(shù)英微信公眾號(hào)(ID: digitaling) 后臺(tái)授權(quán),侵權(quán)必究。
評(píng)論
評(píng)論
推薦評(píng)論
全部評(píng)論(1條)