智譜AI再放“大招”,30秒將任意文字生成視頻
繼文本生成、圖像生成后,視頻生成也加入到了“內(nèi)卷”行列。
7月26日的智譜Open Day上,在大模型賽道上動作頻頻的智譜AI,正式推出視頻生成模型CogVideoX,并放出了兩個(gè)“大招”:
一個(gè)是智譜清言打造的視頻創(chuàng)作智能體清影,可使用文本或圖片生成時(shí)長6秒、1440x960清晰度的高精視頻。
另一個(gè)是智譜清言小程序上線的“讓照片動起來”,可以直接在小程序中上傳照片,輸入提示詞生成動態(tài)視頻。
不同于一些小范圍開放或預(yù)約才能使用的產(chǎn)品, 清影智能體面向所有用戶開放,輸入一段提示詞,選擇自己想要的風(fēng)格,包括卡通3D、黑白、油畫、電影感等等,配上清影自帶的音樂,就能生成充滿想象力的短視頻。企業(yè)和開發(fā)者也可以通過調(diào)用API的方式,體驗(yàn)文生視頻和圖生視頻能力。
由此引出了這樣一個(gè)問題:目前視頻生成類產(chǎn)品仍處于“可玩”的階段,距離商用仍然有不小的鴻溝,智譜AI的進(jìn)場將產(chǎn)生什么樣的影響?
01 更快更可控的“清影”
在Sora引爆視頻生成賽道后,行業(yè)內(nèi)掀起了一場連鎖反應(yīng),先是Runway、Pika等產(chǎn)品在海外市場走紅,國內(nèi)在4月份以后也陸續(xù)曝光了多個(gè)文生視頻類大模型,幾乎每個(gè)月都會有新產(chǎn)品上線。
市場層面越來越熱鬧,體驗(yàn)上卻陷入了相似的困局,確切的說是兩大繞不過去共性問題:
一是推理速度慢,哪怕只是4秒的視頻,也需要10分鐘左右才能生成,而且視頻越長,生成的速度越慢;
二是可控性差,在限定的語句和限定的訓(xùn)練樣本內(nèi),可以有不錯(cuò)的效果,一旦“越界”就會出現(xiàn)“群魔亂舞”的情況。
有人將其比作為游戲中的“抽卡”,多試幾次才會生成想要的效果。然而一個(gè)無法掩蓋的事實(shí)是,倘若文生視頻要嘗試25次才能生成一次可用的,每次生成的時(shí)間動輒10分鐘,意味著想要獲得一條幾秒中的視頻,需要長達(dá)四個(gè)多小時(shí)的時(shí)間成本,所謂的“生產(chǎn)力”也就無從談起。
在智譜清言里試用了“清影”的文生視頻和圖生視頻功能后,我們發(fā)現(xiàn)了兩個(gè)令人驚艷的體驗(yàn):生成一條6秒的視頻,只需要花費(fèi)30秒左右,推理時(shí)間從分鐘級被壓縮到了秒級;采用“鏡頭語言+建立場景+細(xì)節(jié)描述”的提示詞公式,一般“抽兩三次卡”就能夠獲得讓人滿意的視頻內(nèi)容。
以文生視頻的場景為例,給“清影”輸入“寫實(shí)描繪,近距離,獵豹臥在地上,身體微微起伏”的指令后,一分鐘內(nèi)就生成了一段“以假亂真”的視頻:風(fēng)吹動草地的背景,獵豹不斷晃動的耳朵,隨著呼吸起伏的身體,甚至每一根胡須都栩栩如生……幾乎可以被誤認(rèn)為是近距離拍攝的視頻。
為什么智譜AI可以“跳過”行業(yè)內(nèi)普遍存在的痛點(diǎn)?因?yàn)樗械募夹g(shù)問題,都可以通過技術(shù)上的創(chuàng)新解決。
隱藏在智譜清言視頻創(chuàng)作智能體“清影”背后的,是智譜大模型團(tuán)隊(duì)自研打造的視頻生成大模型CogVideoX,采用了和Sora一樣的DiT結(jié)構(gòu),可以將文本、時(shí)間和空間融合。
通過更好的優(yōu)化技術(shù),CogVideoX的推理速度較前代模型提升了6倍;為了提升可控性,智譜AI自研了一個(gè)端到端視頻理解模型,為海量的視頻數(shù)據(jù)生成詳細(xì)的、貼合內(nèi)容的描述,以增強(qiáng)模型的文本理解和指令遵循能力,使得生成的視頻更符合用戶的輸入,并能夠理解超長復(fù)雜prompt指令。
如果說市面上的同類產(chǎn)品還在“可用”上下功夫,創(chuàng)新上“全壘打”的智譜AI已經(jīng)進(jìn)入了“好用”的階段。
直接的例子就是智譜清言同步提供的配樂功能,可以為生成的視頻配上音樂,用戶需要做的僅僅是發(fā)布。無論是沒有視頻制作基礎(chǔ)的小白用戶,還是專業(yè)的內(nèi)容創(chuàng)作者,都可以借助“清影”讓想象力化為生產(chǎn)力。
02 Scaling Law再次被驗(yàn)證
每一次看似不尋常的背后,都有其必然性。在同類產(chǎn)品要么不開放使用,要么還處于阿爾法版本的階段,“清影”之所以成為人人可用的AI視頻應(yīng)用,離不開智譜AI在頻生成大模型上的多年深耕。
時(shí)間回到2021年初,距離ChatGPT的走紅還有近兩年時(shí)間,諸如Transformer、GPT等名詞只是在學(xué)術(shù)圈討論時(shí),智譜AI就推出了文生圖模型CogView,可以將中文文字生成圖像,在MS COCO的評估測試中超過OpenAI的Dall·E,并在2022年推出了CogView2,解決了生成速度慢、清晰度低等問題。
到了2022年,智譜AI在CogView2的基礎(chǔ)上研發(fā)了視頻生成模型CogVideo,可以輸入文本生成逼真的視頻內(nèi)容。
彼時(shí)外界還沉浸在對話式AI的場景中,視頻生成并不是焦點(diǎn)話題,但在前沿的技術(shù)圈里,CogVideo已經(jīng)是炙手可熱的“明星”。
比如CogVideo采用的多幀率分層訓(xùn)練策略,提出了一種基于遞歸插值的方法,即逐步生成與每個(gè)子描述相對應(yīng)的視頻片段,并將這些視頻片段逐層插值得到最終的視頻片段,賦予了CogVideo控制生成過程中變化強(qiáng)度的能力,有助于更好地對齊文本和視頻語義,實(shí)現(xiàn)了從文本到視頻的高效轉(zhuǎn)換。
Meta推出的Make-A-Video、谷歌推出的Phenaki和MAGVIT、微軟的女媧DragNUWA以及英偉達(dá)Video LDMs等等,不少視頻生成模型都引用了CogVideo的策略,并在GitHub上引起了廣泛關(guān)注。
而在全新升級的CogVideoX上,諸如此類的創(chuàng)新還有很多。比如在內(nèi)容連貫性方面,智譜AI自研了高效三維變分自編碼器結(jié)構(gòu)(3D VAE),將原視頻空間壓縮至2%大小,配合3D RoPE位置編碼模塊,更有利于在時(shí)間維度上捕捉幀間關(guān)系,建立起視頻中的長程依賴。
也就是說,視頻創(chuàng)作智能體“清影”的出現(xiàn)絕非偶然和奇跡,而是智譜AI日拱一卒式創(chuàng)新的必然結(jié)果。
大模型行業(yè)有一個(gè)著名的定律叫Scaling Law,即在不受其他因素制約時(shí),模型的性能和計(jì)算量、模型參數(shù)量、數(shù)據(jù)大小呈現(xiàn)冪律關(guān)系,增加計(jì)算量、模型參數(shù)量或數(shù)據(jù)大小都可能會提升模型的性能。
按照智譜AI官方給出的信息,CogVideoX的訓(xùn)練依托亦莊高性能算力集群,而且合作伙伴華策影視參與了模型共建、另一家合作伙伴bilibili參與了清影的技術(shù)研發(fā)過程。沿循這樣的邏輯,“清影”在生成速度、可控性上超預(yù)期的體驗(yàn),無疑再一次印證了Scaling Law定律的有效性。
甚至可以預(yù)見,在Scaling Law的作用下,后續(xù)版本的CogVideoX,將擁有更高分辨率、更長時(shí)長的視頻生成能力。
03 “多模態(tài)是AGI的起點(diǎn)”
一個(gè)可能被習(xí)慣性忽略的信息在于,智譜AI并沒有將“清影”作為獨(dú)立的產(chǎn)品,而是以智譜清言的智能體上線。
個(gè)中原因可以追溯到智譜AI CEO張鵬在ChatGLM大模型發(fā)布會上的演講:“2024年一定是AGI元年,而多模態(tài)是AGI的一個(gè)起點(diǎn)。如果想要走到AGI這條路上去,只停留在語言的層面不夠,要以高度抽象的認(rèn)知能力為核心,把視覺、聽覺等系列模態(tài)的認(rèn)知能力融合起來,才是真正的AGI。”
5月份的ICLR 2024上,智譜大模型團(tuán)隊(duì)在主旨演講環(huán)節(jié)再次闡述了對AGI技術(shù)趨勢的判斷:“文本是構(gòu)建大模型的關(guān)鍵基礎(chǔ),下一步則應(yīng)該把文本、圖像、視頻、音頻等多種模態(tài)混合在一起訓(xùn)練,構(gòu)建真正原生的多模態(tài)模型。”
過去一年多時(shí)間里,大模型的熱度一浪高過一浪,卻未能擺脫“缸中大腦”的局限,應(yīng)用場景十分有限。而大模型想要脫虛向?qū)崳胍哌M(jìn)實(shí)際的生活和工作中創(chuàng)造價(jià)值,必須要長出手腳的執(zhí)行能力,比如在語言能力外延伸出聽覺和視覺的能力,并通過這些能力和物理世界進(jìn)行無縫連接。
再來審視視頻生成大模型CogVideoX和視頻創(chuàng)作智能體“清影”,無疑可以得出一些不一樣的答案。
CogVideoX的文生視頻、圖生視頻能力,可以看作是對認(rèn)知能力的拆解,先實(shí)現(xiàn)單項(xiàng)能力的突破;以視頻創(chuàng)作智能體形態(tài)出現(xiàn)的“清影”,可以看作是對不同模型能力的收攏,在原生多模態(tài)大模型還不太成熟的情況下,用戶可以通過多個(gè)智能體的組合,高效且精準(zhǔn)地解決現(xiàn)實(shí)問題。
可以佐證的是,在智譜AI的大模型矩陣?yán)铮呀?jīng)涵蓋具備視覺和智能體能力的GLM-4/4V、推理極速且高性價(jià)比的GLM-4-Air、基于文本描述創(chuàng)作圖像的CogView-3、超擬人角色定制模型CharacterGLM、擅長中文的向量模型Embedding-2、代碼模型CodeGeeX、開源模型GLM-4-9B以及視頻生成大模型CogVideoX,客戶可以根據(jù)不同的需求調(diào)用不同大模型,找到最優(yōu)解。
而在To C應(yīng)用方面,目前智譜清言上已經(jīng)有30多萬個(gè)智能體,包括思維導(dǎo)圖、文檔助手、日程安排等出色的生產(chǎn)力工具。同時(shí)智譜AI還推出了由數(shù)十萬個(gè)AI體組成的多智能體協(xié)作系統(tǒng)——清言Flow,不僅限于單一智能體的交互,涉及多輪、多態(tài)、多元的對話交互模式,人們僅需通過簡潔的自然語言指令,就能處理高度復(fù)雜的任務(wù)。
做一個(gè)總結(jié)的話:現(xiàn)階段距離真正意義上的AGI還有不小的距離,但智譜AI正在用“單項(xiàng)突破,能力聚合”的方式,提前讓AGI照進(jìn)現(xiàn)實(shí),讓強(qiáng)大的大模型能力真正用來幫助人們的工作、學(xué)習(xí)和生活。
04 寫在最后
需要正視的是,目前視頻生成大模型對物理世界規(guī)律的理解、高分辨率、鏡頭動作連貫性以及時(shí)長等,仍存在非常大的提升空間。
在通往AGI的路上,智譜 AI等大模型廠商不應(yīng)該是孤獨(dú)的行路者。作為普通用戶的我們,也可以是其中的一員,至少可以在智譜清言上用自己的“腦洞”生成有趣的視頻,讓更多人看到大模型的價(jià)值,利用AI提升創(chuàng)作效率的同時(shí),加速多模態(tài)大模型不斷走向成熟。
轉(zhuǎn)載請?jiān)谖恼麻_頭和結(jié)尾顯眼處標(biāo)注:作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。
未經(jīng)授權(quán)嚴(yán)禁轉(zhuǎn)載,授權(quán)事宜請聯(lián)系作者本人,侵權(quán)必究。
本文禁止轉(zhuǎn)載,侵權(quán)必究。
授權(quán)事宜請至數(shù)英微信公眾號(ID: digitaling) 后臺授權(quán),侵權(quán)必究。
評論
評論
推薦評論
暫無評論哦,快來評論一下吧!
全部評論(0條)