新火種AI|GPT-4誕生1年，OpenAI把它放到了機器人上

原創(chuàng) 贊收藏評論

舉報 2024-03-14

掃描,分享朋友圈

作者：一號

編輯：美美

ChatGPT擁有了身體，機器人也有了靈魂。

從OpenAI在去年3月14日拿出GPT-4后，已經(jīng)過了整整一年。顯然，在GPT-4誕生之后的這一年，一切都迭代得太快了，從GPT-4展現(xiàn)多模態(tài)能力，到千行百業(yè)都在談論AI，再到Sora引爆AI生成視頻的市場。

資深機器人專家Eric Jang在不久之前還預言，“ChatGPT曾在一夜之間出現(xiàn)。我認為，有智慧的機器人技術(shù)也將如此。”

他或許沒錯，在一年后的今天，一家名為Figure的公司在X上上傳了一段人形機器人的視頻。

圖片22.png

在視頻中，F(xiàn)igure的人形機器人Figure 01，能夠完全與人類流暢對話，理解人類的想法，同時根據(jù)理解進行抓取和放置的操作，并解釋自己這么做的原因。而這只是OpenAI宣布和Figure共同合作推進人形機器人領(lǐng)域前沿的第十三天。

這段Demo迅速吸引了廣大網(wǎng)友的眼球，有人感嘆，AGI的曙光似乎就在眼前了。

沒弄虛未作假，這些都是機器人自學的

視頻發(fā)布之后，F(xiàn)igure AI的掌門人Brett Adock，在X上來了一番精彩解讀。

視頻中Figure展示了端到端神經(jīng)網(wǎng)絡（end-to-end neural networks）框架下與人類對話的應用。在此過程中沒有任何遠程操作。并且機器人的速度也有了顯著的提升，開始接近人類的速度。

那具體是怎么做到的呢？

首先，F(xiàn)igure AI會將機器人攝像頭拍攝到的圖像和通過板載麥克風記錄到的語言轉(zhuǎn)錄成文本輸入到一個由OpenAI訓練的大模型中，這是一個能夠同時處理圖像和文本信息的模型。

然后，這個模型會處理整個對話的歷史記錄，包括以往的圖像，然后通過文本到語音的方式，生成語音進行響應，向人類回話。

這個模型還同時負責決定執(zhí)行哪種已學習的閉環(huán)行為來響應給定的命令，它將特定的神經(jīng)網(wǎng)絡權(quán)重加載到GPU上，并執(zhí)行相應的策略。

這樣做之后，F(xiàn)igure 01就有了很多有趣的新功能。例如描述它周圍的環(huán)境、在做決定的時候運用常識進行推理，并且會理解一些含糊的高級指令，例如當人類說“我餓了”的時候，它會將桌面上唯一的食物——蘋果，遞給人類，并用簡單的英語說明它為什么這么做。

而關(guān)于Figure 01通過學習掌握的精細雙手操作技能，這些所有的行為都是由神經(jīng)網(wǎng)絡的視覺-運動轉(zhuǎn)換器策略驅(qū)動，能將像素直接映射到動作。這些網(wǎng)絡以每秒10幀的速率接收機載圖像，并以200hz的頻率生成24-DOF動作，包括手腕姿勢和手指關(guān)節(jié)角度。

簡單來說，預訓練模型會首先對圖像和文本進行常識推理，然后給出動作計劃；接著，機器人再基于已學習的視覺-動作執(zhí)行策略，做出快速的反應行動。同時通過全身控制器確保動作的安全性和穩(wěn)定性，保持機器人的平衡。

Figure，眾人看好的具身智能公司

人工智能的后半場，以機器人為代表的具身智能將成為新的智能增長點。

英偉達CEO黃仁勛曾說，“具身智能將引領(lǐng)下一波人工智能浪潮”。這樣的觀點正在被越來越多的公司所贊同。當前，生成式AI的競爭已經(jīng)從連續(xù)對話走向長文本以及多模態(tài)，各家科技公司和機構(gòu)也開始投資具身智能。

而這家名為Figure的具身智能公司，除了被OpenAI看好，還拿到了多方的投資，成為了硅谷備受關(guān)注的新星。

公開資料顯示，F(xiàn)igure成立于2022年，成立之初就瞄準了通用人形機器人領(lǐng)域。在3月1日，它宣布完成了驚人的6.75億美元B輪融資，公司估值達到了26億美元。而它的投資方，幾乎占據(jù)了硅谷的半壁江山。除了OpenAI，微軟、英特爾、英偉達、亞馬遜創(chuàng)始人貝索斯以及“木頭姐”等，都是它的投資方。

而在獲得融資之后，F(xiàn)igure也沒有讓人失望。在今年1月，它們的產(chǎn)品Figure就通過端到端神經(jīng)網(wǎng)絡，僅用10小時就掌握了制作咖啡的技能。1個月后，它又展示了把箱子搬運到傳送帶的新技能，而現(xiàn)在，它又學會了理解人類的意圖。

當然，在商業(yè)化的道路上，F(xiàn)igure也在積極探索。目前，F(xiàn)igure已經(jīng)和寶馬制造公司簽訂了商業(yè)協(xié)議，F(xiàn)igure 01已經(jīng)開始在寶馬位于南卡羅來納州斯帕坦堡的汽車工廠接受測試。

從ChatGPT到Figure 01，OpenAI想的依舊是AGI

盡管OpenAI在2021年夏天悄悄關(guān)閉了其機器人團隊，但顯然，OpenAI對于機器人領(lǐng)域的關(guān)注并未減少。

除了Figure，OpenAI在一年之前就投資了挪威一家名為1X Technologies的機器人制造商。與此同時，OpenAI還被彭博社爆料，說它投資了一家新成立的機器人AI公司Physical Intelligence，他們的創(chuàng)始團隊分別來自谷歌研究團隊、加州大學伯克利分校以及斯坦福大學教授等。而這家公司也是研究未來能夠成為通用機器人系統(tǒng)的人工智能。

顯然，將OpenAI大模型融入Figure 01是OpenAI有意的戰(zhàn)略布局。

對于計算機視覺、機器人等領(lǐng)域來說，具身智能是一個很有挑戰(zhàn)的目標：如果AI智能體（機器人）不僅能夠接收來自數(shù)據(jù)集的靜態(tài)圖像，還能夠在三維的世界中，無論是虛擬還是真實的，四處移動并與環(huán)境進行交互，那么我們將能迎來一次重大的突破，即從識別圖像等機器學習的簡單能力，轉(zhuǎn)變到學習如何通過多個步驟執(zhí)行復雜的類人任務。

而當機器人能夠執(zhí)行類人任務后，通過數(shù)據(jù)的迭代升級，將會越來越像人。而到了那個時候，也許AGI能夠取得突破，這也是OpenAI一直以來的目標。

一年之前，OpenAI發(fā)布了GPT-4，向世界證明了大模型的威力，而在一年后的今天，F(xiàn)igure 01的表現(xiàn)，也許會是機器人領(lǐng)域的GPT-4時刻。不過，正與OpenAI爭得不可開交的馬斯克，他的Optimus也是機器人領(lǐng)域的佼佼者，這兩者之間還會有什么樣的故事，我們拭目以待。

本文系作者授權(quán)數(shù)英發(fā)表，內(nèi)容為作者獨立觀點，不代表數(shù)英立場。
未經(jīng)授權(quán)嚴禁轉(zhuǎn)載，授權(quán)事宜請聯(lián)系作者本人，侵權(quán)必究。

掃描,分享朋友圈

新火種

客戶/市場

近期精選文章更多

777精品出轨人妻国产,熟女av人妻一区二区三四区,国产精品无码中文在线av,美脚パンスト女教师在线观看

新火種AI|GPT-4誕生1年，OpenAI把它放到了機器人上

評論

評論

推薦評論

全部評論（0條）

新火種

關(guān)于

聯(lián)系

相關(guān)信息