「小白秒變神教程」:一句話生成Alex的奇幻漂流記
本文屬於力比多先進影像生成學院(LIAIG)的系列教程之一。接續上一篇「小白秒變神教程」:一句話生成時尚超模夢遊都市仙境。連結如上。
本文附帶使用Google NotebookLM自動生成的中文Podcast如上,方便你更快捷有效地理解全文意涵。除此之外,你還可以經由本文的Google Notebook進行更為系統性的深度學習與互動。
一、一個嶄新的AIGC時代
1. 關於FLUX.1 Kontext (Pro) 在人物角色一致性上的保真度
BFL的FLUX.1 Kontext過去幾天在AIGC界的炸裂程度完全不輸上個月Google在其年度開發者大會上所推出的Veo 3。當前任何人都可以在BFL他們自家與FLUX.1 Kontext同時推出的FLUX Playground上免費試用。其他一眾已在第一時間整合FLUX.1 Kontext的AIGC服務商還有fal.ai,Replicate,Krea,Leonardo.Ai,LTX Studio,OpenArt以及Runware等。這幾家的服務我個人幾乎都有長期訂閱。他們顯然除了最新整合的FLUX.1 Kontext之外還有其各自相對其他服務商的強項足以說服我被其收割。
上圖就是我在FLUX Playground上免費生成的。我之所以要把這張貼出來有個很重要的原因,而這和本章所要探討的主旨是密切相關的。這張圖中站在左邊的這位老兄,也就是本人頭像中的那個Cyberpunk,它最初是我使用Midjourney最新一代也就是v7所生成的。要知道使用MJ v7尤其是在套用其情緒板—p碼之後,所生成出圖像的細節部分可以說是相當精密且複雜的。我當初針對這位老兄進行人物角色的設計時,類似他的圖像但最終被我棄用的至少就有上百張以上。而他最終之所以雀屏中選的主因就在於其頭盔相當精密且複雜的紋理結構上。因此,我在這裡最主要想要說明的一點就是,之前GPT Image 1所無法做到的事情,也就是接近1:1複製這位老兄其頭盔相當精密且複雜的紋理結構這事兒,FLUX.1 Kontext (Pro) 終於做到了。在此恭喜BFL為AIGC發展史從此揭開了嶄新的一頁。
2. 關於Midjourney v7 Omni Reference以及FLUX.1 Kontext在功能定位上的差異以及如何有效結合兩者的優勢
其實有很多人對這兩者在功能定位上的差異存在一定程度的誤解。MJ v7的Omni Reference如使用得當,確實當你對其權重參數也即—ow以及風格化參數也即—s做出適當調整後可以較好地保持人物角色一致性的保真度達到85%以上,但如果你是要它達到95%以上的話,那可能性恐怕就不高了。當然Midjourney的技術肯定還會再繼續不斷地迭代進化下去。但我想要說的是,MJ v7 Omni Reference其真正的威力並不在於保持人物角色一致性的保真度達到95%以上,而是在於當你在進行人物角色的設計時,你可以只使用一張比如大頭貼等的參考圖來讓你在最終人物角色的定調前擁有成百上千看似大同小異,但細看之下卻各有千秋的多樣化選擇。
如果真要拿FLUX.1 Kontext (Pro) 的生成結果和MJ v7 Omni Reference所生成的結果進行直球對比的話,前者在與人物角色參考圖無關的背景細節、紋理結構、畫面風格以及構圖概念上與後者仍然具有很遠的距離。因此你如果對前者在背景部分的生成結果不甚滿意的話,我個人的建議就是把你經由前者所生成的圖像直接導入MJ的編輯器去進行局部或全部Inpainting的後製環節。
總之,這兩者儘管在其功能定位上具有十分顯著的差異,但唯有當你把後者正確地理解為是一個人物角色的專業設計工具時,這兩者強強聯合的無窮潛能才有可能會被你給真正地激發出來。
3. 如何有效地運用Higgsfield的首尾幀VFX特效/運鏡
其實用HF來生成VFX特效/運鏡類I2V視頻相較其他環節而言可能是在整個AIGC的創作中最無腦的一個環節了,畢竟其中最複雜也最消耗AIGC創作者腦力的環節永遠都只會出在你最初使用MJ v7進行人物角色設計以及協同SOTA大語言模型構思原創故事腳本之上。其次才是剪輯、人物對白/獨白/旁白生成、人聲對嘴配音、音效生成以及背景配樂創作等環節。
然而HF究竟可以讓任何一個AIGC創作者無腦到什麼地步呢?基本上你就只需要把首幀或者再加上尾幀的圖像給準備好,然後直接選用某個或同時混搭兩個HF的VFX特效/運鏡,就連文字提示詞都不用提供給它,它就會在提示詞Enhance on模式默認啟用下先直接幫你生成與你所提供給它的圖像以及所選用的VFX特效/運鏡完全符合邏輯的提示詞然後再以此幫你生成I2V視頻。
4. 關於Alex這個人物角色在我心中所佔有的特殊地位
倘若把本文附帶的Demo也囊括在內的話,那我截至目前就已經四次使用他做我AIGC作品中的主角了。我之所以會那麼喜歡用他,其中一個很主要的原因是,他在某種程度上,是我其中一個人格面向的投射,因此你如果要把他理解為是我本人的一種化身也沒問題。他的第一代其實是下面這位老兄。他是我當時用MJ v6.1套用一個我為生成東方混血時尚超模所量身定製的情緒板所生成的。基本上就是把相貌酷似金城武之東方男性超模的五官與神韻完美且精巧地呈現在一張明顯是西方人臉型的臉上。
在他誕生後幾個月的某天我突發奇想,打算把一個名叫Alex的人物角色與台灣這地方做某種連結,我才透過當時的Google Whisk以他為參考圖進行了風格轉化。最終之所以會決定把他搖身一變成一名黑髮黑眼的老外,純粹就只是因為覺得讓一個看似和台灣距離很遠的人突然現身在台灣東部的某座小山上好像這其中給人的反差萌還挺有趣的。
和Alex這人有關的前三集都被我收藏在這兒,你如果有興趣的話可以抽空好好看看。他整個人的風格與造型到第三部曲我們在宇宙鏡面中的倒影時有了很大的轉變,不僅高冷超模的時尚感增強了,還從此戴上了一副和我平日戴的眼鏡DITA GRAND-APX有點神似但卻貌似使用了未來某種更具神秘感與未來感的特殊材質所製成的超時尚透明色墨鏡。
5. 順道一提Captions的Mirage
這兩天他們家的一海票Demo也是在各大社媒平台上瘋傳,同樣也是打着人物角色的一致性已被其徹底克服的宣傳口號,但Mirage經我本人實測之後,效果距離我對它的預期差得還挺遠的。這種生成效果在自帶音頻的Veo 3全面壓境的今日,充其量也只能說他們家這種用大量每支平均就只有幾秒的小段生成視頻來做串聯的做法,不過也就只是在人聲對嘴的效果上比Hedra的Character-3要更逼真一些罷了。以下是我實測的Demo,諸君可以細品一下。人物角色你如果是在尚未訂閱他們家頭一個月199美元的優惠計劃前就只能從他們預先生成好的一些人像特寫中挑一個出來,至於給他配的TTS人聲一樣是我本人人聲的克隆,使用MiniMax的speech-02-hd所生成,它和我本人平日講中文的音色、音量、口音、語速以及語氣相比,其擬真度已近九成。(這種感覺有時真的有種說不上來的怪,我每次聽完後都感覺好像是我自己曾經吟詠過這首詩一般。but in fact, I’ve never done that. So you know it can be really weird.)
我的詩 不曾寫在羊皮紙上 不曾侵蝕 碑石和青銅 更不曾 在沉鬱的金頁中 劃下一絲指痕 我的詩 只是風 一陣清澈的風 它從歸雁的翅羽下 升起 悄悄掠過患者 夢的帳頂 掠過高燒者的焰心 使之變幻 使之澄清 在西郊的綠野上 不斷沉降 像春雪一樣潔淨 消溶 「我的詩」,顧城





