“人手一個賈維斯”的愿望,正在被“視頻通話”功能帶進(jìn)現(xiàn)實
2011年的iPhone 4s發(fā)布會上,Siri以智能語音助手的身份初次亮相,成為整場發(fā)布會上最大的亮點。
當(dāng)時許多人還未曾體驗過Siri的服務(wù),但從媒體報道中建立了一個樸實的愿望:就像《鋼鐵俠》中的賈維斯一樣,每個人都將擁有自己的智能助手,可以實時溝通,幫助我們解決各種問題。
即使Siri后來“跌落神壇”,人們對于“賈維斯”的期望始終沒有抹滅。AlphaGo、智能音箱、大模型……每一次現(xiàn)象級的創(chuàng)新背后,總有人在討論:《鋼鐵俠》中的賈維斯,離我們的生活還有多遠(yuǎn)?
2024年大概率是愿望成真的一年。
7月末,OpenAI宣布向部分付費用戶開放GPT-4o的視頻通話版本,能夠即時與GPT進(jìn)行視頻交互問答,通過攝像頭識別畫面,在線解答各種問題,比如實時翻譯、解線性方程題等。
8月29日,智譜AI官宣智譜清言APP上線“視頻通話”功能,成為首個可以通過文本、音頻、圖像和視頻來進(jìn)行多模態(tài)互動和實時推理的AI助手。目前已經(jīng)向部分用戶開放,并且開放了外部申請權(quán)限,將持續(xù)迭代并逐步放開規(guī)模。
由此產(chǎn)生的一個話題是:為什么頭部的大模型廠商都在死磕“視頻通話”功能,對用戶體驗有什么影響,“人手一個賈維斯”的愿望能否照進(jìn)現(xiàn)實?
01 解鎖AI新體驗
大模型引發(fā)的新一輪技術(shù)熱潮已經(jīng)持續(xù)了近兩年時間,市場上出現(xiàn)了形形色色的AI助手,人機(jī)交互卻被“束縛”在了對話框中,停留在文本輸入的階段。某些產(chǎn)品推出了語音對話功能,但較高的延遲導(dǎo)致體驗不佳,而且無法理解語調(diào)起伏、笑聲等表達(dá)的情感信息,僅僅是用語音替代文本輸入。
我們提前一天體驗到了智譜清言APP的“視頻通話”功能,在內(nèi)測群里和其他進(jìn)行了簡單交流,發(fā)現(xiàn)了一些有趣的應(yīng)用場景:
第一個場景是作業(yè)輔導(dǎo)。
不同于OpenAI發(fā)布會上演示的簡單方程組解答,有群友直接將智譜清言用于孩子的作業(yè)輔導(dǎo):
比如小學(xué)數(shù)學(xué)的互余角計算,智譜清言迅速理解了視頻中題目的語義,并將問題進(jìn)行了拆解,一步步引導(dǎo)孩子去計算,當(dāng)孩子給出正確的答案后,智譜清言還在第一時間給出了“太棒了”的鼓勵。
而在英語教學(xué)的場景中,孩子用筆在紙上圈出了某個單詞,智譜清言精準(zhǔn)識別到了圈住的詞匯,并給出了正確的發(fā)音,甚至在孩子的朗讀出現(xiàn)錯誤時,“耐心”地進(jìn)行了讀音矯正,就像是一個坐在孩子身邊的“英語老師”。
第二個場景是產(chǎn)品介紹。
有時買到的商品是英文包裝,可能看不懂使用說明和注意事項,是否可以用“視頻通話”功能填補(bǔ)信息差呢?
我們將攝像頭對準(zhǔn)了星巴克買來的一款咖啡豆,因為存在折痕,一些英文字母出現(xiàn)了變形,但智譜清言依然準(zhǔn)確識別出了商品信息,包括產(chǎn)品名稱、配料、產(chǎn)地、風(fēng)味、品牌等基礎(chǔ)內(nèi)容。
接下來詢問了咖啡豆的制作和儲存建議,即便是遠(yuǎn)遠(yuǎn)超出視頻畫面中的信息,智譜清言同樣給出了確切的答案:做美式超合適,味道正好;保存咖啡豆要放在陰涼干燥的地方,避免受潮或曬太陽......
第三個場景是廚房助手。
因為每天中午都面臨“吃什么”的煩惱,于是萌生了一個想法:讓智譜清言識別菜品,并給出建議的菜譜和制作方法。
我們同時將白菜、干辣椒、大蒜和生姜放在案板上,然后詢問都要哪些食材,可以用來做什么菜。沒想到的是,智譜清言準(zhǔn)確說出了每一種食材的種類,并給出了辣椒炒白菜的建議。
進(jìn)一步詢問應(yīng)該怎么做,智譜清言詳細(xì)給出了鍋熱加油、姜蒜炒香、加入紅辣椒、香味出來后放切好的白菜等一整套流程。而當(dāng)我們進(jìn)一步詢問“做醋溜白菜還需要哪些食材”時,智譜清言的答案再次讓人驚艷:“做醋溜白菜的話,還需要點醋和糖”。
可以看到,上面的幾個“小兒戲”并不能難倒智譜清言,比答案更重要的其實是整個問答的過程:不僅能夠準(zhǔn)確識別攝像頭拍攝到的內(nèi)容,聽懂語音指令并準(zhǔn)確執(zhí)行,即使打斷它也能迅速給出反應(yīng)。相較于機(jī)械式的一問一答,在體驗上越來越接近人與人的自然交流。
02 到底難在哪里
對智譜清言APP的“視頻通話”功能做個總結(jié)的話,主要解決了三個痛點:
1、新的信息輸入模式,不再局限于文字和語音,而是文本、圖像、音頻和視頻等多個模態(tài),AI可以自己“看世界”了;
2、新的對話交流模式,過去的對話交流大多是一問一答式的,合理但不符合真實習(xí)慣,現(xiàn)在已經(jīng)可以做到“隨時打斷”;
3、新的人機(jī)交互場景,簡單高于一切,視頻和語音帶來了近乎零門檻的用戶教育,意味著人機(jī)交互可能迎來革命性更新。
上面提到的情景,曾不只一次出現(xiàn)在科幻電影中。除了前面提到的《鋼鐵俠》,《流浪地球》《Her》《銀翼殺手2047》等電影中都有類似的橋段。因為最符合人類習(xí)慣的交互,從來都不是鍵盤,而是對話。
要實現(xiàn)“視頻通話”功能,到底難在哪里呢?就大模型而言,必須要滿足兩個方面的能力要求。
首先是多模態(tài)能力。
簡單來說,模態(tài)就是信息輸入和輸出的表現(xiàn)形式,包括文字、圖像、語音、視頻等等。為什么多模態(tài)能力重要呢?因為人類認(rèn)識世界的方式本身就是多模態(tài),眼睛、耳朵、嘴巴、手腳等承載了不同的信息感知,AI想要替代人類的工作,幫助人類學(xué)習(xí)、認(rèn)識和理解這個世界,前提正是多模態(tài)數(shù)據(jù)處理能力。
其次是模型推理速度。
人類對話的普遍間隔時間是250毫秒,偏離這個間隔越久,交互就越“不自然”,體驗也就越“不爽”。目前大模型存在的問題在于:推理時長往往在3秒以上,直接影響了用戶體驗和業(yè)務(wù)效率。OpenAI曾公開GPT-4o的語音延遲數(shù)據(jù),平均為 320 毫秒,智譜AI尚未公布詳細(xì)數(shù)字,但實際體驗和GPT-4o相當(dāng)。
也就是說,大模型的競爭就是一場開卷考試,追求的目標(biāo)一致,且路徑逐漸清晰,比拼的其實是技術(shù)硬實力。
以智譜清言為例,之所以成為國內(nèi)首個面向C端開放“視頻通話”功能的產(chǎn)品,離不開兩個核心優(yōu)勢:
一個是時間上的先發(fā)優(yōu)勢。早在2021年3月,智譜AI團(tuán)隊就推出了GLM系列大模型,2021年5月推出了推出了將中文文字生成圖像的文生圖模型CogView,2022年在CogView2的基礎(chǔ)上研發(fā)了視頻生成模型CogVideo……超過國內(nèi)同行近兩個的時間優(yōu)勢,讓智譜AI在多模態(tài)能力上有著更深的沉淀。
另一個是能力上的領(lǐng)先優(yōu)勢。比如智譜AI聯(lián)合清華KEG潛心打磨的CogVLM-17B,在多個數(shù)據(jù)集上獲得了SOTA或第二名的成績;新推出的GLM-4V-Plus,在MVBench、LVBench、OCRBench、MMVET等多個基準(zhǔn)測試中的表現(xiàn)超過GPT-4o和Gemini 1.5Pro,達(dá)到國際先進(jìn)水平。
03 “盛宴”剛剛開始
也許在一些人眼中,“視頻通話”不過是一項尋常的功能創(chuàng)新,放諸到商業(yè)語境里,卻有著不可小覷的作用。和每一次風(fēng)口出現(xiàn)時一樣,大模型的概念剛走紅時,創(chuàng)業(yè)者們一窩蜂地涌入,試圖在新一輪的創(chuàng)業(yè)潮中搏一個機(jī)會。可直到現(xiàn)在,市場上還沒有跑出一款真正意義上的殺手級產(chǎn)品。
不少人將ChatGPT的走紅視作“AI的iPhone時刻”,可初代iPhone的銷量只有700萬臺,并未改寫諾基亞統(tǒng)治市場的格局;讓無數(shù)開發(fā)者從中獲利的App Store,則要追溯到2008年發(fā)布的iPhone 3G。
初代iPhone的“歷史價值”,其實是電容屏和多點觸控。
諾基亞和摩托羅拉也曾推出多“大屏”手機(jī),但采用的是電阻屏,需要用觸控筆才能操作,導(dǎo)致使用門檻高且場景有限。相比之下,多點觸控的電容屏允許用戶直接用手指操作、輸入和互動,極大地降低了用戶的學(xué)習(xí)成本,賦予了開發(fā)者更大的想象空間,進(jìn)而才有了移動互聯(lián)網(wǎng)的繁榮。
沿循這樣的邏輯,“對話框”就像是電阻屏,“視頻通話”功能讓大模型的人機(jī)交互進(jìn)化到了電容屏?xí)r代。
個中差別并不難解釋。
作為一個深度使用大模型能力的普通用戶,之前我們的需求主要集中在文本生成、圖像生成和視頻生成,比如讓AI寫簡單的視頻腳本、生成文章配圖和視頻素材,核心場景并未脫離“工作”的范疇。
體驗了智譜清言的“視頻通話”功能后,我們深切地感受到:多模態(tài)能力和毫秒級的推理速度,在生活中有著無處不在的應(yīng)用場景,比如出國旅游時打開攝像頭將餐廳的菜單翻譯成中文、工作面試前讓AI扮演面試官提前模擬面試、早上出門時打開視頻詢問今天的穿著怎么樣、吃零食前先讓AI識別計算卡路里……對應(yīng)的生活場景不可計數(shù)。
對于開發(fā)者而言,“卷模型還是卷應(yīng)用”的爭論有了確切的答案:大模型打破能力上的枷鎖后,開發(fā)者可以在更多場景中開發(fā)有價值的應(yīng)用。
譬如我們曾走訪過一家工業(yè)企業(yè),為了解決大型機(jī)械設(shè)備的維修問題,這家企業(yè)采用了AR眼鏡+遠(yuǎn)程工程師的模式,即由當(dāng)?shù)毓ぷ魅藛T戴著AR眼鏡采集實時數(shù)據(jù),后端的維修工程師進(jìn)行遠(yuǎn)程指導(dǎo),在一定程度上節(jié)約了工程師的差旅和時間成本,但培養(yǎng)一個工程師的時間成本近乎無解。
現(xiàn)在無疑有了新的解法:這家企業(yè)可以將工程師的經(jīng)驗和知識用于訓(xùn)練專有大模型,然后通過“視頻通話”功能為現(xiàn)場員工賦能,在AI的指導(dǎo)下一步步解決問題,每個人都能擁有資深工程師的能力。
把思維再發(fā)散一些的話,幾乎所有的場景,都可以利用“視頻通話”能力重新做一遍,包括但不限于作業(yè)輔導(dǎo)、英語家教、景區(qū)導(dǎo)覽、數(shù)字客服等等,等待開發(fā)者的不再是同質(zhì)化競爭的局面,而是深入一個場景做深做實。
當(dāng)想象力不再被制約的時候,就是價值加速變現(xiàn)的拐點,也是大模型盛宴開場的積極信號。
04 寫在最后
年初的一場演講上,智譜AI CEO張鵬曾斷言:2024年一定是AGI元年,而多模態(tài)是AGI的一個起點。
2024年已經(jīng)過去三分之二,回頭再來審視張鵬的判斷,正一步步被驗證。同時也意味著,大模型行業(yè)的演進(jìn)正走在一條可預(yù)見的道路上,不斷在圖文的基礎(chǔ)上融合聽覺、視覺等模態(tài)的認(rèn)知能力,加速邁向AGI時代。
轉(zhuǎn)載請在文章開頭和結(jié)尾顯眼處標(biāo)注:作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。
未經(jīng)授權(quán)嚴(yán)禁轉(zhuǎn)載,授權(quán)事宜請聯(lián)系作者本人,侵權(quán)必究。
本文禁止轉(zhuǎn)載,侵權(quán)必究。
授權(quán)事宜請至數(shù)英微信公眾號(ID: digitaling) 后臺授權(quán),侵權(quán)必究。
評論
評論
推薦評論
暫無評論哦,快來評論一下吧!
全部評論(0條)