提交需求
賽事與廣告咨詢合作,請?zhí)顚懶枨蟊韱危覀儠诘谝粫r間與您聯(lián)系!
俗話說“十個橘貓九個胖,還有一個壓倒炕”。胖橘在養(yǎng)貓人士心中的地位那可是“沉甸甸”的吶~軟乎乎的橘毛團(tuán)子 + 圓滾滾的米其林肚皮,這誰看了不瘋狂心動想猛rua?
最近 AI視頻風(fēng)刮得比臺風(fēng)還猛,當(dāng)胖橘碰上黑科技 AI 視頻平臺,又會碰撞出怎樣的火花?今天就拿網(wǎng)上爆火的胖橘小故事開刀,實測國內(nèi)頂流 AI 視頻平臺即夢和可靈!ps:本次創(chuàng)作全程未使用 PS 等傳統(tǒng)設(shè)計軟件,從 prompt 的構(gòu)思生成,到最終成片的呈現(xiàn),均由 AI 獨立完成(當(dāng)然,視頻剪輯和內(nèi)容生成過程中根據(jù) AI 返回結(jié)果進(jìn)行了人為調(diào)優(yōu),以達(dá)到最佳效果)。話不多說,先呈上最終的視頻效果!
(這里的視頻放在下方下載文件的壓縮包中)
在 AIGC(人工智能生成內(nèi)容)蓬勃發(fā)展的當(dāng)下,國內(nèi) AI 視頻領(lǐng)域競爭愈發(fā)激烈。即夢和可靈作為其中的佼佼者,憑借各自的優(yōu)勢脫穎而出。二者都致力于降低視頻創(chuàng)作門檻,讓普通用戶也能輕松產(chǎn)出高質(zhì)量的視頻內(nèi)容,但在具體功能和使用體驗上,又各有千秋。
即夢憑借強(qiáng)大的中文解析能力,能快速理解創(chuàng)作意圖,生成視頻的速度優(yōu)勢明顯,且本土化功能豐富,還可無縫接入自家剪輯軟件產(chǎn)品“剪映”中,極大提升創(chuàng)作效率。
可靈則以 1080P 電影級質(zhì)感畫面、優(yōu)秀的細(xì)節(jié)與物理仿真、豐富創(chuàng)意工具及視頻的多模態(tài)編輯(支持替換、增加、刪除視頻內(nèi)元素)吸引了眾多用戶。
一個精彩的視頻離不開優(yōu)質(zhì)的故事。我們借助豆包強(qiáng)大的 AI 能力,先讓它多生成幾個充滿創(chuàng)意的故事腳本(我這里是一次性生成10個,幫我打開思路),先找到一個自己喜歡的主題。
在豆包給我的10個初始故事中,“小貓偷魚” 就像自帶發(fā)光特效,一下子戳中了我的創(chuàng)作 DNA,果斷拍板定為本次視頻的 “靈魂劇本”!
故事主題定好后,再次向豆包發(fā)起新任務(wù) —— 把文字故事變成有畫面感的分鏡腳本。一開始,豆包默認(rèn)生成了同時包含中英文的咒語給我(人家也是好心,怕我們看不懂,讓中英文對照著看)。
不過,我們后續(xù)要使用的即夢和可靈是國產(chǎn) AI 平臺,特色就是“強(qiáng)大的中文解析能力”,是用不到英文prompt的。并且雙語內(nèi)容以表格形式呈現(xiàn),存在信息冗余、閱讀不便的問題。
因此,我重新調(diào)整指令,明確要求豆包 “不需要英文咒語”!經(jīng)過優(yōu)化,最終獲得了精簡且專業(yè)的分鏡方案,完整涵蓋分鏡編號、場景描述、角色動作、畫面風(fēng)格及鏡頭語言等要素,為后續(xù) AI 生成環(huán)節(jié)奠定了精準(zhǔn)的創(chuàng)作基礎(chǔ)。
文生圖是視頻創(chuàng)作的重要基礎(chǔ),其質(zhì)量直接影響后續(xù)圖生視頻的效果。務(wù)必嚴(yán)格按照腳本分鏡的要求,細(xì)致地描述畫面內(nèi)容,再通過調(diào)整關(guān)鍵詞和參數(shù),篩選出最滿意的靜態(tài)圖,以此保障后續(xù)圖生視頻時畫面內(nèi)容的可控性。畫面才不會跑偏,能和預(yù)想的一樣。
我們可以先用一個簡單案例測試一下這兩個平臺文生圖的質(zhì)量。
可以看到,雖然輸入了同樣的咒語,但最終得到的圖片效果差異還是蠻大的。我特意寫了在環(huán)境、天氣和時間線上邏輯相沖突的一段話,看看它們各自是如何處理。因為本次就是要生成貓咪視頻,所以測試圖也用動物案例。我家剛好有只藍(lán)白英短大肥貓,就先拿它開刀!
咒語:電影特效、光效、比例 9:16 ,陽光明媚的天氣,一只灰白英短,圓圓的臉一雙大大的眼睛,騎著綠色的三輪車,買菜和肉回家。一開始嘴巴張得很大,開心地笑著。突然它摔倒了,東西散落了一地,它摔倒的動作很滑稽,流著眼淚,嘴巴張開大哭,可憐的表情。天氣也從晴天變成了陰雨天,配合此時此刻倒霉的故事。表情擬人化,動作擬人化。
可以看到,對于主體藍(lán)白英短貓咪的繪制,即夢明顯更準(zhǔn)確??伸`可能是可圖1.5模型訓(xùn)練的泛化性不足問題,畫不出咱們常見的藍(lán)白英短。中文咒語提到的元素內(nèi)容,即夢都呈現(xiàn)的不錯,“買菜和肉回家”的內(nèi)容它自由發(fā)揮,展示出放進(jìn)了紙袋被斜挎在貓咪身上的情景。而可靈的畫面細(xì)節(jié)就沒有那么豐富。風(fēng)格上,我也更傾向于即夢,明亮,飽和度高。這樣做出的視頻更容易受大眾喜愛。
所以決定本次的分鏡圖都來用即夢生成。(也有可能是我用的可圖1.5在本次主題上呈現(xiàn)的效果不理想,大家做之前還是需要測試一下不同平臺與自身風(fēng)格的匹配度哦~)
好啦,轉(zhuǎn)入正題。開始“分鏡1:超市張望”的文生圖制作:
輸入中文咒語:“超逼真擬人化橘貓,肉墊扒門框,超市冷柜魚腥味氛圍,8k 分辨率,超寫實毛發(fā),電影級調(diào)色,冷色調(diào)燈光,監(jiān)控探頭反光,真實玻璃質(zhì)感”。得到4張圖。主角、場景、動作、色調(diào)都還不錯。但是,別忘了,橘貓要胖才更可愛呀~
于是,增加“橘貓很胖,很可愛”在咒語段落靠前面的位置,這樣可以提升這段文字的權(quán)重,增加模型生成胖貓的概率。果然,同樣的場景下,貓變胖了。這里注意后期如果需要固定主角形象,每個分鏡描述文案都不要忘了“胖”字。當(dāng)然,如果想創(chuàng)造一個更加有獨特性和辨識度的形象,可以增加對主角形象的描述,例如:描述眼球顏色,特殊毛色花紋等等...當(dāng)然這樣也會增加模型輸出的難度和生圖的效率。想得到獨特性的形象,需要花時間抽卡。
例如,分鏡4的情節(jié)中,我需要一個長得像黑貓警長一樣八字臉毛色的警察貓來抓鋪,在不斷調(diào)整咒語描述的同時,通過多輪抽卡,才得到了想要的形象。
一開始,我輸入關(guān)鍵詞 “擬人化警察貓”,但 AI 模型輸出的 4 張圖片均呈現(xiàn)真人警察形象,未能識別 “擬人化” 與 “貓” 的核心要素。
為修正這一偏差,再次細(xì)化指令為 “超逼真擬人化的黑加白顏色的警察貓”,可以看到此次雖成功生成擬人化的貓警察,但畫面中的貓全部為純黑色。而且通過觀察輸出結(jié)果,我推測模型將 “黑加白顏色的” 進(jìn)行了歧義分詞處理,導(dǎo)致理解偏差,最終還生成了純黑、純白及黑白色調(diào)的警車畫面。
針對這一問題,我調(diào)整表述為 “超逼真擬人化的黑白顏色的警察貓”,通過消除歧義表述,最終獲得符合預(yù)期的擬人化黑白配色警察貓形象。后續(xù)通過多次圖生操作,篩選出形象設(shè)計與構(gòu)圖俱佳的圖片,完成該分鏡畫面的創(chuàng)作。
按照以上方法,分別制作好其它7個分鏡的圖片。這里我根據(jù)短視頻剪輯的特色,在AI生成的分鏡腳本基礎(chǔ)上,在分鏡1后又增加了同場景另一視角的分鏡2圖片。因為考慮到短視頻推流邏輯中的“2s退出率”,如果在視頻的前2s,畫面呈現(xiàn)內(nèi)容太單一,沒有抓住用戶眼球,那么很大可能性會導(dǎo)致他們無情滑走。所以前期我們鏡頭素材要準(zhǔn)備的充足一些。同場景多鏡頭也能快速交代故事背景,提升內(nèi)容的豐富程度~
在篩選分鏡圖片時,除了確保主角形象統(tǒng)一、畫面風(fēng)格協(xié)調(diào)外,還需考量鏡頭間的空間連貫性與邏輯合理性。前后鏡頭的空間布局應(yīng)保持自然銜接,避免場景斷層。
例如,當(dāng)確定分鏡 7 為交代空間關(guān)系的關(guān)鍵幀(畫面中橘貓蜷臥于床邊,床體緊貼墻面,背景為素色墻壁)后,后續(xù)分鏡 8 的選圖也需嚴(yán)格遵循這一空間設(shè)定,確保橘貓活動場景與前序畫面中的空間要素保持一致,從而為觀眾營造出流暢、真實的視覺體驗。
圖生視頻是將靜態(tài)畫面賦予生命的關(guān)鍵環(huán)節(jié),其效果直接決定著視頻最終呈現(xiàn)的流暢度與表現(xiàn)力。在這個階段,我們依靠文生圖環(huán)節(jié)產(chǎn)出的優(yōu)質(zhì)關(guān)鍵幀,通過編寫咒語與畫面運動參數(shù),將單幀畫面轉(zhuǎn)化為連貫的動態(tài)影像。同時,不同平臺在圖生視頻的處理邏輯與渲染能力上存在顯著差異,選擇適配的平臺能大幅提升創(chuàng)作效率與成片質(zhì)量。
為了直觀感受即夢與可靈在圖生視頻方面的表現(xiàn),我們依然通過相同咒語+墊圖的方式,測試一下它們各自的優(yōu)劣。
測試還是選取文生圖環(huán)節(jié)中 “灰白英短騎車摔倒” 的案例。在輸入相同的中文咒語和視頻首幀圖后,兩個平臺展現(xiàn)出截然不同的特性。
在生成速度上:即夢憑借其優(yōu)化的視頻合成算法,在生成速度上展現(xiàn)出壓倒性優(yōu)勢,平均耗時1-2分鐘便可輸出一段5s的視頻片段。而可靈生成同樣一段5s的視頻,在渲染速度上稍遜一籌,平均需要5分鐘左右。
在畫面質(zhì)量上:可靈生成的畫面自然流暢,但在復(fù)雜動態(tài)細(xì)節(jié)的呈現(xiàn)上稍顯不足(英短摔倒時的肢體扭轉(zhuǎn)細(xì)節(jié)上,存在動作僵硬的現(xiàn)象)。而可靈卻擅長捕捉細(xì)膩的動態(tài)畫面,在動作的流暢度與畫面張力表現(xiàn)上更出色(在動態(tài)場景切換與貓咪豐富細(xì)膩的表情轉(zhuǎn)換中都呈現(xiàn)出極高的真實感)。
此外,可靈還提供視頻首尾幀、視頻多模態(tài)編輯(替換元素、增加元素、刪除元素)等高級功能。打破傳統(tǒng)單一文本輸入的局限,允許用戶融合文字、圖片、視頻片段等多模態(tài)信息,向 AI 精準(zhǔn)傳達(dá)復(fù)雜創(chuàng)意。為創(chuàng)作者帶來前所未有的創(chuàng)作自由度與高效體驗 。
在成本和穩(wěn)定性上:即夢和可靈各有優(yōu)劣。即夢以低成本、高速度為優(yōu)勢,免費用戶有每日額度,基礎(chǔ)會員生成 5 秒視頻僅需約 2 毛錢,1-2 分鐘左右即可完成,能滿足高頻創(chuàng)作需求,部分模型(如 S2.0 Pro)畫面穩(wěn)定,但復(fù)雜場景下存在穩(wěn)定性隱患;可靈定位高端,僅贈送初始靈感值,生成 5 秒視頻大概需要1塊錢,速度較慢,即便會員生成也需十幾分鐘(非會員的我就遇到過生成一個5s視頻等待3小時以上的情況),不過它畫面穩(wěn)定性強(qiáng)、動態(tài)捕捉出色,偶爾會出現(xiàn)生成效果與預(yù)期偏差的情況。
綜上,結(jié)合兩個平臺各自的特色,本次需要畫面張力的分鏡(例如分鏡3、4、5、8)使用可靈,常規(guī)畫面(分鏡1、2、6、7)使用即夢來提升制作效率。
視頻剪輯作為 AI 視頻創(chuàng)作的收官環(huán)節(jié),是將零散素材轉(zhuǎn)化為完整敘事的核心步驟。需要我們對鏡頭語言、節(jié)奏把控具備基礎(chǔ)認(rèn)知,還需掌握邏輯串聯(lián)與情感渲染的技巧。雖然前期素材生成已具備一定邏輯性,但仍需通過剪輯優(yōu)化畫面連貫性,增強(qiáng)視聽表現(xiàn)力。無論是調(diào)整畫面色調(diào)統(tǒng)一風(fēng)格,還是通過剪輯彌補(bǔ) AI 生成時的細(xì)節(jié)瑕疵,都需要先理解剪輯的基本原理。(其實現(xiàn)在也有用AI輔助剪輯的案例,本次先不做細(xì)節(jié)討論)
2.4.1粗剪:視頻畫面篩選
在眾多生成的視頻畫面中,挑選出風(fēng)格統(tǒng)一、情節(jié)連貫的片段至關(guān)重要。我們需要根據(jù)故事的節(jié)奏和情感基調(diào),篩選出能夠準(zhǔn)確傳達(dá)內(nèi)容的畫面,剔除模糊、突?;蚺c主題不符的鏡頭。
2.4.2精剪:畫面故事銜接
視頻畫面的銜接節(jié)奏,直接關(guān)乎觀眾的沉浸體驗。為確保敘事流暢自然,需根據(jù)情節(jié)節(jié)奏與場景變化,合理選擇轉(zhuǎn)場方式。在畫面空間相近、情節(jié)平緩?fù)七M(jìn)的段落,建議采用“無轉(zhuǎn)場”處理或添加0.2秒的短“疊化”效果,最大程度弱化剪輯痕跡,避免打斷觀眾的觀看連貫性;而當(dāng)場景發(fā)生明顯變化(如從橘貓在街道被追捕--被抓進(jìn)牢里),則可運用“推進(jìn)”“拉遠(yuǎn)”等更具視覺沖擊力的轉(zhuǎn)場特效,來提示觀眾場景轉(zhuǎn)換,既增強(qiáng)敘事的邏輯性,又賦予視頻獨特的節(jié)奏感。
2.4.3配音技巧
配音也是賦予作品情感與靈魂的關(guān)鍵要素,其重要性不亞于畫面本身。好的配音能夠彌補(bǔ)AI生成畫面在情感傳遞上的不足,幫助觀眾更好地理解故事內(nèi)容,強(qiáng)化視聽體驗。
我參考了許多抖音上此類小視頻的配音特色,使用了貓叫原聲+人類聲音的片段,為橘貓打造出擬人化的配音體系。同時也可以搭配一些短視頻常用的音效片段,增強(qiáng)短視頻的網(wǎng)感。
在剪輯時,需要精準(zhǔn)把控音效與畫面的匹配度,避免出現(xiàn)聲音與畫面不符、情緒不一致等問題??梢栽谝恍┑胤郊尤隖cut(先出聲音,后出畫面,通過提前釋放聲音,勾起觀眾好奇心,制造懸念感與期待值)J cut 等剪輯技巧,進(jìn)一步吸引觀眾注意力,提升視頻感染力。同時,還需要調(diào)節(jié)不同音效的音量大小,突出重點內(nèi)容,平衡不同聲音元素之間的關(guān)系,讓配音真正成為推動故事發(fā)展、引發(fā)觀眾共鳴的有力工具。
2.4.4BGM的選擇與剪輯:烘托氛圍的點睛之筆
背景音樂能夠給視頻整體的情緒定一個基調(diào),合適的背景音樂也能為視頻增色不少。我們可根據(jù)故事的情節(jié)發(fā)展和情感變化,選擇節(jié)奏、風(fēng)格匹配的 BGM,在溫馨的場景中,搭配輕柔舒緩的音樂;在搞笑的情節(jié)時,切換為活潑歡快的旋律,以此烘托氛圍,提升視頻的感染力。
本次短視頻選取的是抖音上同類視頻統(tǒng)一都用到的BGM。因為這首歌很長,有1m40s,我們的視頻只有27s,這里需要對它進(jìn)行剪輯。一定要反復(fù)去聽,選擇一個合適的開頭和結(jié)尾(通常節(jié)奏減弱或為段落的結(jié)尾)。在兩段落銜接處,可采用交叉淡化(Crossfade)技巧,使音樂平穩(wěn)過渡。最后,再降低一下它整體的音量大小,不能搶了音效的重要位置。
先說感受:太方便了。經(jīng)過這次實戰(zhàn)測評,不得不感嘆 AI 視頻創(chuàng)作迭代的進(jìn)程速度與強(qiáng)大。從故事構(gòu)思到成片輸出,整個過程無需復(fù)雜的專業(yè)技能,AI 就能助力我們實現(xiàn)創(chuàng)意。
在即夢和可靈的對比中,即夢在圖像生成的美觀度和視頻生成速度上表現(xiàn)突出,適合追求高效產(chǎn)出和畫面質(zhì)量的創(chuàng)作者;可靈則在捕捉動態(tài)畫面和功能豐富性上更具優(yōu)勢,能滿足創(chuàng)作者多樣化的創(chuàng)意需求。此外,在價格方面,二者均推出了不同的會員套餐和付費模式,創(chuàng)作者可根據(jù)自身使用頻率和需求進(jìn)行選擇(小聲說:本次使用的均為免費版用戶可使用的模型類型,可能付費版的效果會更驚艷)。隨著 AIGC 技術(shù)的不斷進(jìn)步,相信未來 AI 視頻平臺將為設(shè)計和剪輯領(lǐng)域帶來更多驚喜,讓每個人都能輕松成為視頻創(chuàng)作大師。
Powered by Froala Editor
大牛,別默默的看了,快登錄幫我點評一下吧!:)
登錄 立即注冊