777精品出轨人妻国产,熟女av人妻一区二区三四区,国产精品无码中文在线av,美脚パンスト女教师在线观看

智譜AI再放“大招”,30秒將任意文字生成視頻

原創(chuàng) 收藏 評論
舉報(bào) 2024-07-26

繼文本生成、圖像生成后,視頻生成也加入到了“內(nèi)卷”行列。

7月26日的智譜Open Day上,在大模型賽道上動作頻頻的智譜AI,正式推出視頻生成模型CogVideoX,并放出了兩個(gè)“大招”:

一個(gè)是智譜清言打造的視頻創(chuàng)作智能體清影,可使用文本或圖片生成時(shí)長6秒、1440x960清晰度的高精視頻。

另一個(gè)是智譜清言小程序上線的“讓照片動起來”,可以直接在小程序中上傳照片,輸入提示詞生成動態(tài)視頻。

不同于一些小范圍開放或預(yù)約才能使用的產(chǎn)品, 清影智能體面向所有用戶開放,輸入一段提示詞,選擇自己想要的風(fēng)格,包括卡通3D、黑白、油畫、電影感等等,配上清影自帶的音樂,就能生成充滿想象力的短視頻。企業(yè)和開發(fā)者也可以通過調(diào)用API的方式,體驗(yàn)文生視頻和圖生視頻能力。

由此引出了這樣一個(gè)問題:目前視頻生成類產(chǎn)品仍處于“可玩”的階段,距離商用仍然有不小的鴻溝,智譜AI的進(jìn)場將產(chǎn)生什么樣的影響?

01 更快更可控的“清影”

在Sora引爆視頻生成賽道后,行業(yè)內(nèi)掀起了一場連鎖反應(yīng),先是Runway、Pika等產(chǎn)品在海外市場走紅,國內(nèi)在4月份以后也陸續(xù)曝光了多個(gè)文生視頻類大模型,幾乎每個(gè)月都會有新產(chǎn)品上線。

市場層面越來越熱鬧,體驗(yàn)上卻陷入了相似的困局,確切的說是兩大繞不過去共性問題:

一是推理速度慢,哪怕只是4秒的視頻,也需要10分鐘左右才能生成,而且視頻越長,生成的速度越慢;

二是可控性差,在限定的語句和限定的訓(xùn)練樣本內(nèi),可以有不錯(cuò)的效果,一旦“越界”就會出現(xiàn)“群魔亂舞”的情況。

有人將其比作為游戲中的“抽卡”,多試幾次才會生成想要的效果。然而一個(gè)無法掩蓋的事實(shí)是,倘若文生視頻要嘗試25次才能生成一次可用的,每次生成的時(shí)間動輒10分鐘,意味著想要獲得一條幾秒中的視頻,需要長達(dá)四個(gè)多小時(shí)的時(shí)間成本,所謂的“生產(chǎn)力”也就無從談起。

在智譜清言里試用了“清影”的文生視頻和圖生視頻功能后,我們發(fā)現(xiàn)了兩個(gè)令人驚艷的體驗(yàn):生成一條6秒的視頻,只需要花費(fèi)30秒左右,推理時(shí)間從分鐘級被壓縮到了秒級;采用“鏡頭語言+建立場景+細(xì)節(jié)描述”的提示詞公式,一般“抽兩三次卡”就能夠獲得讓人滿意的視頻內(nèi)容。

以文生視頻的場景為例,給“清影”輸入“寫實(shí)描繪,近距離,獵豹臥在地上,身體微微起伏”的指令后,一分鐘內(nèi)就生成了一段“以假亂真”的視頻:風(fēng)吹動草地的背景,獵豹不斷晃動的耳朵,隨著呼吸起伏的身體,甚至每一根胡須都栩栩如生……幾乎可以被誤認(rèn)為是近距離拍攝的視頻。

為什么智譜AI可以“跳過”行業(yè)內(nèi)普遍存在的痛點(diǎn)?因?yàn)樗械募夹g(shù)問題,都可以通過技術(shù)上的創(chuàng)新解決。

隱藏在智譜清言視頻創(chuàng)作智能體“清影”背后的,是智譜大模型團(tuán)隊(duì)自研打造的視頻生成大模型CogVideoX,采用了和Sora一樣的DiT結(jié)構(gòu),可以將文本、時(shí)間和空間融合。

通過更好的優(yōu)化技術(shù),CogVideoX的推理速度較前代模型提升了6倍;為了提升可控性,智譜AI自研了一個(gè)端到端視頻理解模型,為海量的視頻數(shù)據(jù)生成詳細(xì)的、貼合內(nèi)容的描述,以增強(qiáng)模型的文本理解和指令遵循能力,使得生成的視頻更符合用戶的輸入,并能夠理解超長復(fù)雜prompt指令。

如果說市面上的同類產(chǎn)品還在“可用”上下功夫,創(chuàng)新上“全壘打”的智譜AI已經(jīng)進(jìn)入了“好用”的階段。

直接的例子就是智譜清言同步提供的配樂功能,可以為生成的視頻配上音樂,用戶需要做的僅僅是發(fā)布。無論是沒有視頻制作基礎(chǔ)的小白用戶,還是專業(yè)的內(nèi)容創(chuàng)作者,都可以借助“清影”讓想象力化為生產(chǎn)力。

02 Scaling Law再次被驗(yàn)證

每一次看似不尋常的背后,都有其必然性。在同類產(chǎn)品要么不開放使用,要么還處于阿爾法版本的階段,“清影”之所以成為人人可用的AI視頻應(yīng)用,離不開智譜AI在頻生成大模型上的多年深耕。

時(shí)間回到2021年初,距離ChatGPT的走紅還有近兩年時(shí)間,諸如Transformer、GPT等名詞只是在學(xué)術(shù)圈討論時(shí),智譜AI就推出了文生圖模型CogView,可以將中文文字生成圖像,在MS COCO的評估測試中超過OpenAI的Dall·E,并在2022年推出了CogView2,解決了生成速度慢、清晰度低等問題。

到了2022年,智譜AI在CogView2的基礎(chǔ)上研發(fā)了視頻生成模型CogVideo,可以輸入文本生成逼真的視頻內(nèi)容。

彼時(shí)外界還沉浸在對話式AI的場景中,視頻生成并不是焦點(diǎn)話題,但在前沿的技術(shù)圈里,CogVideo已經(jīng)是炙手可熱的“明星”。

比如CogVideo采用的多幀率分層訓(xùn)練策略,提出了一種基于遞歸插值的方法,即逐步生成與每個(gè)子描述相對應(yīng)的視頻片段,并將這些視頻片段逐層插值得到最終的視頻片段,賦予了CogVideo控制生成過程中變化強(qiáng)度的能力,有助于更好地對齊文本和視頻語義,實(shí)現(xiàn)了從文本到視頻的高效轉(zhuǎn)換。

Meta推出的Make-A-Video、谷歌推出的Phenaki和MAGVIT、微軟的女媧DragNUWA以及英偉達(dá)Video LDMs等等,不少視頻生成模型都引用了CogVideo的策略,并在GitHub上引起了廣泛關(guān)注。

而在全新升級的CogVideoX上,諸如此類的創(chuàng)新還有很多。比如在內(nèi)容連貫性方面,智譜AI自研了高效三維變分自編碼器結(jié)構(gòu)(3D VAE),將原視頻空間壓縮至2%大小,配合3D RoPE位置編碼模塊,更有利于在時(shí)間維度上捕捉幀間關(guān)系,建立起視頻中的長程依賴。

也就是說,視頻創(chuàng)作智能體“清影”的出現(xiàn)絕非偶然和奇跡,而是智譜AI日拱一卒式創(chuàng)新的必然結(jié)果。

大模型行業(yè)有一個(gè)著名的定律叫Scaling Law,即在不受其他因素制約時(shí),模型的性能和計(jì)算量、模型參數(shù)量、數(shù)據(jù)大小呈現(xiàn)冪律關(guān)系,增加計(jì)算量、模型參數(shù)量或數(shù)據(jù)大小都可能會提升模型的性能。

按照智譜AI官方給出的信息,CogVideoX的訓(xùn)練依托亦莊高性能算力集群,而且合作伙伴華策影視參與了模型共建、另一家合作伙伴bilibili參與了清影的技術(shù)研發(fā)過程。沿循這樣的邏輯,“清影”在生成速度、可控性上超預(yù)期的體驗(yàn),無疑再一次印證了Scaling Law定律的有效性。

甚至可以預(yù)見,在Scaling Law的作用下,后續(xù)版本的CogVideoX,將擁有更高分辨率、更長時(shí)長的視頻生成能力。

03 “多模態(tài)是AGI的起點(diǎn)”

一個(gè)可能被習(xí)慣性忽略的信息在于,智譜AI并沒有將“清影”作為獨(dú)立的產(chǎn)品,而是以智譜清言的智能體上線。

個(gè)中原因可以追溯到智譜AI CEO張鵬在ChatGLM大模型發(fā)布會上的演講:“2024年一定是AGI元年,而多模態(tài)是AGI的一個(gè)起點(diǎn)。如果想要走到AGI這條路上去,只停留在語言的層面不夠,要以高度抽象的認(rèn)知能力為核心,把視覺、聽覺等系列模態(tài)的認(rèn)知能力融合起來,才是真正的AGI。”

5月份的ICLR 2024上,智譜大模型團(tuán)隊(duì)在主旨演講環(huán)節(jié)再次闡述了對AGI技術(shù)趨勢的判斷:“文本是構(gòu)建大模型的關(guān)鍵基礎(chǔ),下一步則應(yīng)該把文本、圖像、視頻、音頻等多種模態(tài)混合在一起訓(xùn)練,構(gòu)建真正原生的多模態(tài)模型。”

過去一年多時(shí)間里,大模型的熱度一浪高過一浪,卻未能擺脫“缸中大腦”的局限,應(yīng)用場景十分有限。而大模型想要脫虛向?qū)崳胍哌M(jìn)實(shí)際的生活和工作中創(chuàng)造價(jià)值,必須要長出手腳的執(zhí)行能力,比如在語言能力外延伸出聽覺和視覺的能力,并通過這些能力和物理世界進(jìn)行無縫連接。

再來審視視頻生成大模型CogVideoX和視頻創(chuàng)作智能體“清影”,無疑可以得出一些不一樣的答案。

CogVideoX的文生視頻、圖生視頻能力,可以看作是對認(rèn)知能力的拆解,先實(shí)現(xiàn)單項(xiàng)能力的突破;以視頻創(chuàng)作智能體形態(tài)出現(xiàn)的“清影”,可以看作是對不同模型能力的收攏,在原生多模態(tài)大模型還不太成熟的情況下,用戶可以通過多個(gè)智能體的組合,高效且精準(zhǔn)地解決現(xiàn)實(shí)問題。

可以佐證的是,在智譜AI的大模型矩陣?yán)铮呀?jīng)涵蓋具備視覺和智能體能力的GLM-4/4V、推理極速且高性價(jià)比的GLM-4-Air、基于文本描述創(chuàng)作圖像的CogView-3、超擬人角色定制模型CharacterGLM、擅長中文的向量模型Embedding-2、代碼模型CodeGeeX、開源模型GLM-4-9B以及視頻生成大模型CogVideoX,客戶可以根據(jù)不同的需求調(diào)用不同大模型,找到最優(yōu)解。

而在To C應(yīng)用方面,目前智譜清言上已經(jīng)有30多萬個(gè)智能體,包括思維導(dǎo)圖、文檔助手、日程安排等出色的生產(chǎn)力工具。同時(shí)智譜AI還推出了由數(shù)十萬個(gè)AI體組成的多智能體協(xié)作系統(tǒng)——清言Flow,不僅限于單一智能體的交互,涉及多輪、多態(tài)、多元的對話交互模式,人們僅需通過簡潔的自然語言指令,就能處理高度復(fù)雜的任務(wù)。

做一個(gè)總結(jié)的話:現(xiàn)階段距離真正意義上的AGI還有不小的距離,但智譜AI正在用“單項(xiàng)突破,能力聚合”的方式,提前讓AGI照進(jìn)現(xiàn)實(shí),讓強(qiáng)大的大模型能力真正用來幫助人們的工作、學(xué)習(xí)和生活。

04 寫在最后

需要正視的是,目前視頻生成大模型對物理世界規(guī)律的理解、高分辨率、鏡頭動作連貫性以及時(shí)長等,仍存在非常大的提升空間。

在通往AGI的路上,智譜 AI等大模型廠商不應(yīng)該是孤獨(dú)的行路者。作為普通用戶的我們,也可以是其中的一員,至少可以在智譜清言上用自己的“腦洞”生成有趣的視頻,讓更多人看到大模型的價(jià)值,利用AI提升創(chuàng)作效率的同時(shí),加速多模態(tài)大模型不斷走向成熟。


本文系作者授權(quán)數(shù)英發(fā)表,內(nèi)容為作者獨(dú)立觀點(diǎn),不代表數(shù)英立場。
轉(zhuǎn)載請?jiān)谖恼麻_頭和結(jié)尾顯眼處標(biāo)注:作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。
本文系作者授權(quán)數(shù)英發(fā)表,內(nèi)容為作者獨(dú)立觀點(diǎn),不代表數(shù)英立場。
未經(jīng)授權(quán)嚴(yán)禁轉(zhuǎn)載,授權(quán)事宜請聯(lián)系作者本人,侵權(quán)必究。
本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表數(shù)英立場。
本文禁止轉(zhuǎn)載,侵權(quán)必究。
本文系數(shù)英原創(chuàng),未經(jīng)允許不得轉(zhuǎn)載。
授權(quán)事宜請至數(shù)英微信公眾號(ID: digitaling) 后臺授權(quán),侵權(quán)必究。

    評論

    文明發(fā)言,無意義評論將很快被刪除,異常行為可能被禁言
    DIGITALING
    登錄后參與評論

    評論

    文明發(fā)言,無意義評論將很快被刪除,異常行為可能被禁言
    800

    推薦評論

    暫無評論哦,快來評論一下吧!

    全部評論(0條)

    主站蜘蛛池模板: 偃师市| 比如县| 揭西县| 托克托县| 湘乡市| 竹北市| 常德市| 东丽区| 铁岭市| 惠东县| 沈丘县| 辽源市| 武清区| 汤阴县| 体育| 安化县| 正宁县| 蒙城县| 得荣县| 潞城市| 江山市| 浦江县| 大新县| 嘉荫县| 郑州市| 康保县| 阿拉善右旗| 宜城市| 赤水市| 常山县| 娱乐| 青海省| 古丈县| 武定县| 平原县| 准格尔旗| 湖南省| 新宁县| 崇义县| 新昌县| 延吉市|