“人手一個賈維斯”的愿望，正在被“視頻通話”功能帶進(jìn)現(xiàn)實

原創(chuàng) 贊收藏評論

舉報 2024-08-30

掃描,分享朋友圈

2011年的iPhone 4s發(fā)布會上，Siri以智能語音助手的身份初次亮相，成為整場發(fā)布會上最大的亮點。

當(dāng)時許多人還未曾體驗過Siri的服務(wù)，但從媒體報道中建立了一個樸實的愿望：就像《鋼鐵俠》中的賈維斯一樣，每個人都將擁有自己的智能助手，可以實時溝通，幫助我們解決各種問題。

即使Siri后來“跌落神壇”，人們對于“賈維斯”的期望始終沒有抹滅。AlphaGo、智能音箱、大模型……每一次現(xiàn)象級的創(chuàng)新背后，總有人在討論：《鋼鐵俠》中的賈維斯，離我們的生活還有多遠(yuǎn)？

2024年大概率是愿望成真的一年。

7月末，OpenAI宣布向部分付費用戶開放GPT-4o的視頻通話版本，能夠即時與GPT進(jìn)行視頻交互問答，通過攝像頭識別畫面，在線解答各種問題，比如實時翻譯、解線性方程題等。

8月29日，智譜AI官宣智譜清言APP上線“視頻通話”功能，成為首個可以通過文本、音頻、圖像和視頻來進(jìn)行多模態(tài)互動和實時推理的AI助手。目前已經(jīng)向部分用戶開放，并且開放了外部申請權(quán)限，將持續(xù)迭代并逐步放開規(guī)模。

由此產(chǎn)生的一個話題是：為什么頭部的大模型廠商都在死磕“視頻通話”功能，對用戶體驗有什么影響，“人手一個賈維斯”的愿望能否照進(jìn)現(xiàn)實？

01 解鎖AI新體驗

大模型引發(fā)的新一輪技術(shù)熱潮已經(jīng)持續(xù)了近兩年時間，市場上出現(xiàn)了形形色色的AI助手，人機(jī)交互卻被“束縛”在了對話框中，停留在文本輸入的階段。某些產(chǎn)品推出了語音對話功能，但較高的延遲導(dǎo)致體驗不佳，而且無法理解語調(diào)起伏、笑聲等表達(dá)的情感信息，僅僅是用語音替代文本輸入。

我們提前一天體驗到了智譜清言APP的“視頻通話”功能，在內(nèi)測群里和其他進(jìn)行了簡單交流，發(fā)現(xiàn)了一些有趣的應(yīng)用場景：

第一個場景是作業(yè)輔導(dǎo)。

不同于OpenAI發(fā)布會上演示的簡單方程組解答，有群友直接將智譜清言用于孩子的作業(yè)輔導(dǎo)：

比如小學(xué)數(shù)學(xué)的互余角計算，智譜清言迅速理解了視頻中題目的語義，并將問題進(jìn)行了拆解，一步步引導(dǎo)孩子去計算，當(dāng)孩子給出正確的答案后，智譜清言還在第一時間給出了“太棒了”的鼓勵。

而在英語教學(xué)的場景中，孩子用筆在紙上圈出了某個單詞，智譜清言精準(zhǔn)識別到了圈住的詞匯，并給出了正確的發(fā)音，甚至在孩子的朗讀出現(xiàn)錯誤時，“耐心”地進(jìn)行了讀音矯正，就像是一個坐在孩子身邊的“英語老師”。

第二個場景是產(chǎn)品介紹。

有時買到的商品是英文包裝，可能看不懂使用說明和注意事項，是否可以用“視頻通話”功能填補(bǔ)信息差呢？

我們將攝像頭對準(zhǔn)了星巴克買來的一款咖啡豆，因為存在折痕，一些英文字母出現(xiàn)了變形，但智譜清言依然準(zhǔn)確識別出了商品信息，包括產(chǎn)品名稱、配料、產(chǎn)地、風(fēng)味、品牌等基礎(chǔ)內(nèi)容。

接下來詢問了咖啡豆的制作和儲存建議，即便是遠(yuǎn)遠(yuǎn)超出視頻畫面中的信息，智譜清言同樣給出了確切的答案：做美式超合適，味道正好；保存咖啡豆要放在陰涼干燥的地方，避免受潮或曬太陽......

第三個場景是廚房助手。

因為每天中午都面臨“吃什么”的煩惱，于是萌生了一個想法：讓智譜清言識別菜品，并給出建議的菜譜和制作方法。

我們同時將白菜、干辣椒、大蒜和生姜放在案板上，然后詢問都要哪些食材，可以用來做什么菜。沒想到的是，智譜清言準(zhǔn)確說出了每一種食材的種類，并給出了辣椒炒白菜的建議。

進(jìn)一步詢問應(yīng)該怎么做，智譜清言詳細(xì)給出了鍋熱加油、姜蒜炒香、加入紅辣椒、香味出來后放切好的白菜等一整套流程。而當(dāng)我們進(jìn)一步詢問“做醋溜白菜還需要哪些食材”時，智譜清言的答案再次讓人驚艷：“做醋溜白菜的話，還需要點醋和糖”。

可以看到，上面的幾個“小兒戲”并不能難倒智譜清言，比答案更重要的其實是整個問答的過程：不僅能夠準(zhǔn)確識別攝像頭拍攝到的內(nèi)容，聽懂語音指令并準(zhǔn)確執(zhí)行，即使打斷它也能迅速給出反應(yīng)。相較于機(jī)械式的一問一答，在體驗上越來越接近人與人的自然交流。

02 到底難在哪里

對智譜清言APP的“視頻通話”功能做個總結(jié)的話，主要解決了三個痛點：

1、新的信息輸入模式，不再局限于文字和語音，而是文本、圖像、音頻和視頻等多個模態(tài)，AI可以自己“看世界”了；

2、新的對話交流模式，過去的對話交流大多是一問一答式的，合理但不符合真實習(xí)慣，現(xiàn)在已經(jīng)可以做到“隨時打斷”；

3、新的人機(jī)交互場景，簡單高于一切，視頻和語音帶來了近乎零門檻的用戶教育，意味著人機(jī)交互可能迎來革命性更新。

上面提到的情景，曾不只一次出現(xiàn)在科幻電影中。除了前面提到的《鋼鐵俠》，《流浪地球》《Her》《銀翼殺手2047》等電影中都有類似的橋段。因為最符合人類習(xí)慣的交互，從來都不是鍵盤，而是對話。

要實現(xiàn)“視頻通話”功能，到底難在哪里呢？就大模型而言，必須要滿足兩個方面的能力要求。

首先是多模態(tài)能力。

簡單來說，模態(tài)就是信息輸入和輸出的表現(xiàn)形式，包括文字、圖像、語音、視頻等等。為什么多模態(tài)能力重要呢？因為人類認(rèn)識世界的方式本身就是多模態(tài)，眼睛、耳朵、嘴巴、手腳等承載了不同的信息感知，AI想要替代人類的工作，幫助人類學(xué)習(xí)、認(rèn)識和理解這個世界，前提正是多模態(tài)數(shù)據(jù)處理能力。

其次是模型推理速度。

人類對話的普遍間隔時間是250毫秒，偏離這個間隔越久，交互就越“不自然”，體驗也就越“不爽”。目前大模型存在的問題在于：推理時長往往在3秒以上，直接影響了用戶體驗和業(yè)務(wù)效率。OpenAI曾公開GPT-4o的語音延遲數(shù)據(jù)，平均為 320 毫秒，智譜AI尚未公布詳細(xì)數(shù)字，但實際體驗和GPT-4o相當(dāng)。

也就是說，大模型的競爭就是一場開卷考試，追求的目標(biāo)一致，且路徑逐漸清晰，比拼的其實是技術(shù)硬實力。

以智譜清言為例，之所以成為國內(nèi)首個面向C端開放“視頻通話”功能的產(chǎn)品，離不開兩個核心優(yōu)勢：

一個是時間上的先發(fā)優(yōu)勢。早在2021年3月，智譜AI團(tuán)隊就推出了GLM系列大模型，2021年5月推出了推出了將中文文字生成圖像的文生圖模型CogView，2022年在CogView2的基礎(chǔ)上研發(fā)了視頻生成模型CogVideo……超過國內(nèi)同行近兩個的時間優(yōu)勢，讓智譜AI在多模態(tài)能力上有著更深的沉淀。

另一個是能力上的領(lǐng)先優(yōu)勢。比如智譜AI聯(lián)合清華KEG潛心打磨的CogVLM-17B，在多個數(shù)據(jù)集上獲得了SOTA或第二名的成績；新推出的GLM-4V-Plus，在MVBench、LVBench、OCRBench、MMVET等多個基準(zhǔn)測試中的表現(xiàn)超過GPT-4o和Gemini 1.5Pro，達(dá)到國際先進(jìn)水平。

03 “盛宴”剛剛開始

也許在一些人眼中，“視頻通話”不過是一項尋常的功能創(chuàng)新，放諸到商業(yè)語境里，卻有著不可小覷的作用。和每一次風(fēng)口出現(xiàn)時一樣，大模型的概念剛走紅時，創(chuàng)業(yè)者們一窩蜂地涌入，試圖在新一輪的創(chuàng)業(yè)潮中搏一個機(jī)會。可直到現(xiàn)在，市場上還沒有跑出一款真正意義上的殺手級產(chǎn)品。

不少人將ChatGPT的走紅視作“AI的iPhone時刻”，可初代iPhone的銷量只有700萬臺，并未改寫諾基亞統(tǒng)治市場的格局；讓無數(shù)開發(fā)者從中獲利的App Store，則要追溯到2008年發(fā)布的iPhone 3G。

初代iPhone的“歷史價值”，其實是電容屏和多點觸控。

諾基亞和摩托羅拉也曾推出多“大屏”手機(jī)，但采用的是電阻屏，需要用觸控筆才能操作，導(dǎo)致使用門檻高且場景有限。相比之下，多點觸控的電容屏允許用戶直接用手指操作、輸入和互動，極大地降低了用戶的學(xué)習(xí)成本，賦予了開發(fā)者更大的想象空間，進(jìn)而才有了移動互聯(lián)網(wǎng)的繁榮。

沿循這樣的邏輯，“對話框”就像是電阻屏，“視頻通話”功能讓大模型的人機(jī)交互進(jìn)化到了電容屏?xí)r代。

個中差別并不難解釋。

作為一個深度使用大模型能力的普通用戶，之前我們的需求主要集中在文本生成、圖像生成和視頻生成，比如讓AI寫簡單的視頻腳本、生成文章配圖和視頻素材，核心場景并未脫離“工作”的范疇。

體驗了智譜清言的“視頻通話”功能后，我們深切地感受到：多模態(tài)能力和毫秒級的推理速度，在生活中有著無處不在的應(yīng)用場景，比如出國旅游時打開攝像頭將餐廳的菜單翻譯成中文、工作面試前讓AI扮演面試官提前模擬面試、早上出門時打開視頻詢問今天的穿著怎么樣、吃零食前先讓AI識別計算卡路里……對應(yīng)的生活場景不可計數(shù)。

對于開發(fā)者而言，“卷模型還是卷應(yīng)用”的爭論有了確切的答案：大模型打破能力上的枷鎖后，開發(fā)者可以在更多場景中開發(fā)有價值的應(yīng)用。

譬如我們曾走訪過一家工業(yè)企業(yè)，為了解決大型機(jī)械設(shè)備的維修問題，這家企業(yè)采用了AR眼鏡+遠(yuǎn)程工程師的模式，即由當(dāng)?shù)毓ぷ魅藛T戴著AR眼鏡采集實時數(shù)據(jù)，后端的維修工程師進(jìn)行遠(yuǎn)程指導(dǎo)，在一定程度上節(jié)約了工程師的差旅和時間成本，但培養(yǎng)一個工程師的時間成本近乎無解。

現(xiàn)在無疑有了新的解法：這家企業(yè)可以將工程師的經(jīng)驗和知識用于訓(xùn)練專有大模型，然后通過“視頻通話”功能為現(xiàn)場員工賦能，在AI的指導(dǎo)下一步步解決問題，每個人都能擁有資深工程師的能力。

把思維再發(fā)散一些的話，幾乎所有的場景，都可以利用“視頻通話”能力重新做一遍，包括但不限于作業(yè)輔導(dǎo)、英語家教、景區(qū)導(dǎo)覽、數(shù)字客服等等，等待開發(fā)者的不再是同質(zhì)化競爭的局面，而是深入一個場景做深做實。

當(dāng)想象力不再被制約的時候，就是價值加速變現(xiàn)的拐點，也是大模型盛宴開場的積極信號。

04 寫在最后

年初的一場演講上，智譜AI CEO張鵬曾斷言：2024年一定是AGI元年，而多模態(tài)是AGI的一個起點。

2024年已經(jīng)過去三分之二，回頭再來審視張鵬的判斷，正一步步被驗證。同時也意味著，大模型行業(yè)的演進(jìn)正走在一條可預(yù)見的道路上，不斷在圖文的基礎(chǔ)上融合聽覺、視覺等模態(tài)的認(rèn)知能力，加速邁向AGI時代。

本文系作者授權(quán)數(shù)英發(fā)表，內(nèi)容為作者獨立觀點，不代表數(shù)英立場。
轉(zhuǎn)載請在文章開頭和結(jié)尾顯眼處標(biāo)注：作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。

掃描,分享朋友圈

Alter聊IT

其他

近期精選文章更多

777精品出轨人妻国产,熟女av人妻一区二区三四区,国产精品无码中文在线av,美脚パンスト女教师在线观看

“人手一個賈維斯”的愿望，正在被“視頻通話”功能帶進(jìn)現(xiàn)實

評論

評論

推薦評論

全部評論（0條）

Alter聊IT

關(guān)于

聯(lián)系

相關(guān)信息