AutoGLM的一小步,人機交互進化的一大步
55年前,左腳剛剛踏上月球的阿姆斯特朗,說了一句簡單的話:“這是個人的一小步,卻是人類的一大步。”
過去幾十年里,很多人曾引用過這句話,用來定格某個歷史性時刻。今天,我們想把這句話套用到智譜的AutoGLM上。
11月29日的智譜Agent OpenDay上,對外公測或內測了三個產品——瀏覽器插件AutoGLM Web、電腦智能體大模型GLM-PC,以及一個多月前“劇透”過的AutoGLM,也是智譜第一個產品化的智能體Agent。
短短一個月的時間,AutoGLM的能力不再局限于點外賣、朋友圈點贊,帶來了多個新進展:
AutoGLM 可以自主執(zhí)行超過 50 步的長步驟操作,也可以跨App執(zhí)行任務;AutoGLM開啟“全自動”上網新體驗,支持等數十個網站的無人駕駛;像人一樣操作計算機的GLM-PC啟動內測,基于視覺多模態(tài)模型實現(xiàn)通用Agent的技術探索。
同時AutoGLM 啟動了大規(guī)模內測,將盡快上線成為面向 C 端用戶的產品,并宣布啟動“10個億級 APP 免費 Auto 升級”的計劃。
01 AutoGLM可以做什么?
看到這里,可能不少人會疑問:什么是AutoGLM?
單從名字上看,很容易讓人聯(lián)想到自動駕駛,畢竟幾乎每輛汽車的中控區(qū)都有一個AUTO按鈕,表示該功能或設置為自動模式。
顧名思義,AutoGLM的場景正是用AI控制手機,只需要一句語音指令,AutoGLM即可模擬人類操作手機來完整任務。AI從只有對話功能的Chatbot,正在進化為“有手、有腦、有眼睛”的自主Agent。
為了方便大家理解,我們提前做了一波測試。
對于不方便看視頻的小伙伴,這里大致說一下我們測試的四個場景:分別是到小紅書查找周末出行攻略、給小紅書博主的最新內容評論、到拼多多上買一箱涌泉蜜桔、訂一張從寧波到北京的機票。
直接說結果,AutoGLM都準確完成了工作,幾個涉及到購買的場景,只需要我們最后付款即可。稍有不足的是,遇到彈窗或需要人工確認的環(huán)節(jié),目前AutoGLM還無法處理,需要人為操作后才能繼續(xù)后面的流程。
由于時間的原因,我們的測試沒有太深入,對于AutoGLM的能力升級,可以參考智譜Agent OpenDay上傳遞出的信息:
超長任務:理解超長指令,執(zhí)行超長任務。例如,在采購火鍋食材的例子中,AutoGLM 自主執(zhí)行了 54步無打斷操作。并且,在這種多步、循環(huán)任務中,AutoGLM 的速度表現(xiàn)超過人手動操作。
跨 App :AutoGLM 支持跨 App 來執(zhí)行任務。用戶將習慣于 AI 自動處理,而不是在多個 APP 間來回切換。由于目前 AutoGLM 形態(tài)更像是用戶和應用間的APP執(zhí)行的調度層,因此跨 App 能力是里面非常關鍵的一步。
短口令:AutoGLM 能夠支持長任務的自定義短語。今天,你不用再給AutoGLM說:“幫我買一杯瑞幸咖啡,生椰拿鐵,五道口店,大杯、熱、微糖” 這類超長指令,只需要說“點咖啡”。
隨便模式:我們都會陷入選擇恐懼,AutoGLM 今天可以主動幫你做出決策。隨便模式下所有步驟都讓 AI 決策,帶來有抽盲盒式的驚喜。想不想嘗嘗AI為你點的咖啡口味?
以此類推,AutoGLM Web和GLM-PC的能力和AutoGLM相似,面向的場景分別是瀏覽器和電腦端,并且有一些智能手機上做不到的功能。
比如AutoGLM Web能夠理解用戶的指令,自動為用戶在網頁上站內檢索、多鏈接總結,甚至進一步實現(xiàn)生成arXiv日報,搭建Github倉庫,在微博超話簽到等個性化功能。
再比如遠程手機發(fā)指令,GLM-PC可以自主完成電腦操作,可以設定一個未來時間,在開機狀態(tài)下定時執(zhí)行任務。
想象一下:即使你在摸魚、喝咖啡或者上廁所,你的電腦依然在工作,絲毫不會影響工作的進度。
02 人機交互進入AI時代
當然,讓我們印象深刻的,并非是AutoGLM所實現(xiàn)的能力,而是對人機交互模式的巨大沖擊,基于自然語言的人機交互已經是現(xiàn)在進行時。
小時候上“微機課”,老師經常掛在嘴邊的一句話就是:“你們要學會用電腦。”
之所以會出現(xiàn)一個“學”字,因為操作電腦必須要學會使用鍵盤和鼠標、必須學會輸入法、必須要去適應每一個應用的復雜界面,想要編寫程序還需要從0開始學一門編程語言。盡管這些工具在不斷進步,人與機器的協(xié)作依然是一件高門檻的事,特別是一些專業(yè)軟件,想要完成某個任務需要很多個步驟,過程中充斥著機械性的重復勞動。
AutoGLM目前的功能還很基礎,卻拉開了人機交互進化的序幕:借助于大模型的強大能力,只需要一句話,AI就能自動幫我們處理復雜的任務,人機協(xié)作的門檻進一步降低。
不再是人被動適應機器,而是讓機器理解人類。
試圖打破人機交互僵局的,不只是國內的智譜,蘋果的Apple lnteligence、Anthropic的Computer Use、谷歌的Jarvis,以及OpenAI即將發(fā)布的Operator,都在朝同樣的方向進行創(chuàng)新。
問題來了,大模型距離重塑人機交互范式還有多遠呢?
自動駕駛領域有L1—L5的能力劃分,OpenAI、智譜等企業(yè)也提出了類似的技術階段:L1是語言能力、L2是邏輯能力(多模態(tài)能力)、L3是使用工具的能力、L4是自我學習能力,最終做到像人一樣理解界面、規(guī)劃任務、使用工具、完成任務。
“壞消息”在于,目前大模型能力還處于初級階段。按照智譜 CEO 張鵬的說法,“Agent 將極大地提升 L3 使用工具能力,同時開啟對 L4 自我學習能力的探索。”
“好消息”則是,在智譜Agent OpenDay上,榮耀、華碩、小鵬、高通、英特爾等,分別從不同的場景出發(fā),分享了他們對智能終端的實踐及展望。
也就是說,大模型重塑人機交互范式,絕非是大模型企業(yè)的愿景,而是包含終端廠商、芯片廠商在內的產業(yè)上下游的共識。隨著AutoGLM能力的提升,將能調用越來越多的應用,適配越來越多的系統(tǒng),實現(xiàn)越來越復雜的連貫自主操作。
另一個不應該忽略的信息是:端側算力正在持續(xù)提升,智譜順勢推出了為AI原生設備適配的模型和端云同源的協(xié)同架構,意味著Agent不僅將在應用上實現(xiàn)用戶體驗變革,還能將推廣到各類智能設備上,手機+AI、PC+AI、汽車+AI等將不斷涌現(xiàn)。
03 寫在最后
在大模型的概念剛走紅時,就有人將其比作是“操作系統(tǒng)”。
至少從AutoGLM的表現(xiàn)來看,即便只是在用戶和應用之間增加一個智能調度層,已經有了GLM-OS(以大模型為中心的通用計算系統(tǒng))的雛形。倘若能夠進一步實現(xiàn)原生的人與機器交互,將從根本上改變人機交互模式,所有人都可以用自然語言操作手機、電腦、汽車、眼鏡等等。
值得期待的是,著名調研機構Gartner已經將agentic AI列為2025年十大技術趨勢之一,預測2028年至少有 15%的日常工作決策將由agentic AI自主完成。
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規(guī)范轉載侵權必究。
未經授權嚴禁轉載,授權事宜請聯(lián)系作者本人,侵權必究。
本文禁止轉載,侵權必究。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。
評論
評論
推薦評論
暫無評論哦,快來評論一下吧!
全部評論(0條)