OpenAI 機器人驚艷亮相！ChatGPT 有了身體

原創贊7 收藏6 評論

舉報 2024-03-18

掃描,分享朋友圈

首發：愛范兒
原標題：GPT-4 發布一年后，OpenAI 機器人驚艷亮相！ChatGPT 有了身體

以 GPT-4 為代表的大模型已經建造了大腦，下一步則是需要能承載這一大腦的機器人軀體。

13日深夜，人形機器人明星公司 Figure AI 震撼發布了一段視頻，展示了他們的機器人 Figure 01 在 OpenAI 強大模型的支持下，進行的一系列對話交互。

視頻中的機器人展現出了靈活的操作反應，其與人類溝通的流暢度幾乎可以與真人相媲美。

這距離 Figure AI 獲得 OpenAI 、微軟、英偉達等公司投資，僅僅過去了不到半個月。也讓我們看到，OpenAI 最強的多模態大模型有了身體后會是什么樣子。

一、Figure 01，最懂你的人形機器人？

得益于 OpenAI 多模態大模型的強大支持，Figure 01 現在可是個桌上物品識別的小能手。蘋果、瀝水架、水杯和盤子，對它來說都是小菜一碟！

餓了，想讓它整口吃的，它能秒懂你的心思，麻溜地遞上一個蘋果。

而且，它甚至能邊撿起你丟棄的垃圾，邊跟你解釋為啥剛才給了你蘋果。在大模型的輔助下，Figure 01 可以理解桌面上唯一的食物——蘋果。

在人類的一聲令下，Figure 01 還能做家務，收拾餐具，這機器人，簡直是家庭生活的最佳伙伴。完整視頻如下（已翻譯）：

視頻來自：@op7418

廣大網友在看到這段令人驚艷的視頻后，反應可謂是五花八門。

網友已經迫不及待地給 Figure 01 安排任務了，任務清單里怎么還混進了機器人前輩的電影。

競爭對手怕是要看在眼里，急在心里，準備暗地里摩拳擦掌，來一場技術大比拼？

更興奮的網友表示，AGI 的曙光似乎就在眼前。

當然，總有些挑剔的聲音，有的網友就吐槽說，這機器人說法怎么結結巴巴呢？

網友也沒放過玩梗的機會。

Figure AI 掌門人 Brett Adock 也不甘寂寞，在 X 上跳出來做了一番精彩解讀。

視頻展示了端到端神經網絡的應用(end-to-end neural networks)。在此過程中沒有使用遙控器(teleop)。視頻是以實際速度（1.0倍速）拍攝的，并且是連續不斷的。
如您在視頻中看到的，機器人的速度有了顯著的提升，我們正在逐步達到與人類相似的速度。

二、無需遙控，自學成才

那么 Figure 01 是怎么做到的呢？

Figure AI 團隊負責人 Corey Lynch 在 X 上解釋了一番。

具體來說，視頻中展示的所有行為都是通過學習獲得的（非遙控操作），并且以實際速度（1.0 倍速）執行。

Figure AI 將機器人攝像頭拍攝的圖像和通過板載麥克風記錄的語音轉錄文本輸入到一個由 OpenAI 訓練的多模態模型中，這個模型能夠同時理解圖像和文本信息。

該模型會處理整個對話的歷史記錄，包括以往的圖像，以生成語言響應，并通過文本到語音的方式向人類回話。同一個模型還負責決定執行哪種已學習的閉環行為來響應給定的命令，它將特定的神經網絡權重加載到 GPU 上，并執行相應的策略。

而將 Figure 01 連接到一個大型預訓練的多模態模型，為其帶來了許多有趣的新功能。

現在，Figure 01 + OpenAI 能夠：

詳述其周圍環境。
在決策時運用常識推理。例如，「桌子上的餐具，像那個盤子和杯子，很可能接下來會被放到烘干架上」。
將含糊的高級指令，如「我餓了」，轉化為符合情境的適當行為，比如「遞給那個人一個蘋果」。
用簡單的英語解釋為什么它執行了某個特定的動作。例如，「這是我能夠從桌子上提供的唯一可食用物品」。

當談到 Figure 01 通過學習掌握的精細雙手操作技能時，其實這背后也蘊含著一系列復雜而精妙的原理。

所有行為都由神經網絡的視覺-運動轉換器策略驅動，這種策略能直接將圖像像素映射到動作。這些網絡以每秒 10 幀的速率接收機器人內置圖像，并生成每秒 200 次的 24 自由度動作（包括腕部姿勢和手指關節角度）。

這些動作作為高速「設定點」，供更高速率的全身控制器跟蹤，確保動作的精確執行。

這種設計實現了關注點的有效分離：

互聯網預訓練模型對圖像和文本進行常識推理，以生成一個高級計劃。
學習到的視覺-運動策略執行這個計劃，完成那些難以手動指定的快速、反應性行為，例如在任何位置操縱一個可變形的袋子。
同時，全身控制器負責確保動作的安全性和穩定性，例如，保持機器人的平衡。

對于 Figure 01 取得的巨大進步，Corey Lynch 感慨道：

就在幾年前，我還認為與一個能自主規劃和執行學習行為的人形機器人進行完整對話，將是未來數十年后的事情。顯然，許多事情已經發生了巨大變化。

三、這會是人形機器人的 GPT 時刻嗎

不得不說，Figure 01 的發展速度簡直像是踩了油門，一路狂飆。

今年 1 月，Figure 01 就掌握了制作咖啡的技能，這一成就得益于端到端神經網絡的引入，使得機器人能夠自主學習和糾正錯誤，僅需 10 小時的訓練。

一個月后，Figure 01 已經學會了搬運箱子并運送至傳送帶的新技能，盡管其速度僅為人類的 16.7%。

在這個過程，Figure AI 商業化的步伐也未曾停歇，與寶馬制造公司簽訂了商業協議，將 AI 和機器人技術融入汽車生產線，并落戶于寶馬的工廠。

緊接著，就在兩周前，Figure 宣布完成了 6.75 億美元的 B 輪融資，公司估值飆升至 26 億美元。

投資方幾乎涵蓋了硅谷的半壁江山——Microsoft、OpenAI 創業基金、英偉達、Jeff Bezos、Parkway Venture Capital、Intel Capital 和 Align Ventures 等。

當時，OpenAI 與 Figure 還宣布將共同開發下一代人形機器人 AI 模型，OpenAI 的多模態模型將擴展到機器人感知、推理和交互環節。

如今，從 Figure 01 身上，我們仿佛能窺見未來生活的草稿。事實上，在大模型之前，機器人屬于專用設備，如今有了大模型的通用能力，通用機器人開始曙光乍現，現在的我們不止需要 ChatGPT，還需要 WorkGPT。

這些進化間接印證了一條清晰可見的道路：當 AI 大模型生根發芽之后，總歸是要走進現實世界，而具身智能則是最佳的路徑。

一直活躍在 AI 前線的英偉達創始人黃仁勛曾洞察道：「具身智能將引領下一波人工智能浪潮?！?/strong>

將 OpenAI 大模型融入 Figure 01 也是有意的戰略布局。

成熟的 AI 大模型充當人工大腦，模擬了人腦復雜的神經網絡，實現了語言理解、視覺識別、情景推理等認知功能，解決了機器人更高層次的認知和決策問題。

與此同時，各種傳感器、執行器、計算單元被集成到機器人軀體中，實現了對環境的感知和交互。比如視覺系統可以捕捉圖像和視頻，觸覺傳感器可以感受物體的形狀和質地等。

Figure AI 創始人 Brett Adcock 此前在接受采訪時表示，未來 1-2 年，Figure AI 將專注于開發具有里程碑意義的產品，期望在未來一兩年內向公眾展示人形機器人的研發成果，涵蓋 AI 系統、低級控制等，最終呈現能在日常生活中大展身手的機器人。

他還透露，在成本方面，一個人形機器人約有 1000 個零件，重約 150 磅（68 公斤），而電動汽車可能有約 1 萬個零件，重達 4000-5000 磅（1800-2250公斤）。

因此，長期來看，人形機器人的成本有望低于廉價電動汽車，這取決于執行器、電機組件、傳感器的成本及計算成本。

機器人專家 Eric Jang 曾提出他的洞見：「盡管許多 AI 研究者認為通用機器人的普及還需數十年，但別忘了，ChatGPT 的誕生仿佛幾乎就在一夜之間。」

一年前的今天，OpenAI 震撼發布了 GPT-4，向世界證明了大模型的強大威力。

一年后的今天，我們沒等來 GPT-5，但也迎來 Figure 01，而這會是人形機器人的 GPT-4 時刻嗎？

作者公眾號：愛范兒（ID：ifanr）

本文系作者授權數英發表，內容為作者獨立觀點，不代表數英立場。
轉載請在文章開頭和結尾顯眼處標注：作者、出處和鏈接。不按規范轉載侵權必究。

本文系作者授權數英發表，內容為作者獨立觀點，不代表數英立場。
未經授權嚴禁轉載，授權事宜請聯系作者本人，侵權必究。

本內容為作者獨立觀點，不代表數英立場。
本文禁止轉載，侵權必究。

本文系數英原創，未經允許不得轉載。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權，侵權必究。

掃描,分享朋友圈

收藏 6

7

推薦收藏夾

1 2
全部

相關推薦

 營銷人如何駕馭AI，才能不被淘汰？

改變世界的ChatGPT，誕生于2015年

 一次性搞懂什么是AIGC?。ㄒ黄恼?2個基本概念）

Sora刷屏一周，9大平臺的年輕人怎么看？

2024年，我用AI輔助創作后的10點感想