新火種AI|Devin再次震撼谷歌!但卻是以被質疑造假的方式...
作者:小巖
編輯:彩云
我們常說有人的地方就有江湖,就會存在炒作,扒皮和虛偽。沒想到,到了人工智能這里,也是一樣。
4月9日,一位自稱有35年軟件工程師經(jīng)驗的網(wǎng)絡博主卡爾逐幀復現(xiàn)了人工智能軟件師Devin的演示視頻,并據(jù)此提出4點質疑。他認為Devin所展示的編程能力存在一定欺騙性,并且“所處理的任務并非隨機,而是演示者精心選擇的刻意呈現(xiàn)”。
這個Devin極其特別,被稱為“全球首個AI人工智能軟件師”,它被質疑造假,這件事足以震驚整個硅谷,乃至全球AI領域。
細扒全球首個AI程序員的上線經(jīng)過...
我們先來了解一下Devin的來歷。
Devin是由Cognition Labs于今年3月12日發(fā)布的一項AI編程產(chǎn)品,它最大的宣傳點是“全球首位AI工程師”。
主創(chuàng)介紹,Devin在長程推理和規(guī)劃上面下了很大功夫,可以規(guī)劃和執(zhí)行需要數(shù)千個決策才能完成的復雜軟件工程任務。具體來說有6大功能:端到端構建和部署程序,可以解決的不只是代碼問題,還包括與之相關的整個工作流;自主查找并修復bug;訓練和微調(diào)自己的AI模型;修復開源庫;為成熟的生產(chǎn)庫做貢獻;超強學習能力,實時補足知識和能力短板。Devin完整技術報告中顯示,在SWE-bench基準測試中,無需人類輔助,Devin可解決13.86%的問題。
這個數(shù)據(jù)看似平平無奇,但其實已經(jīng)超過了此前所有AI大模型的成績。要知道,目前數(shù)一數(shù)二的GPT-4,在同個測試中的成績只有1.74%,且必須配備一個人類,提示它要處理哪些文件。
Cognition Labs始終沒開放公測,但陸陸續(xù)續(xù)給出了一些內(nèi)測名額。耐人尋味的是,很多人在當時上手體驗過了,還給出了很高的評價。譬如熱衷AI的沃頓商學院教授Ethan Molick試過后就大大贊賞了Devin,認為其新穎的實時交互方式是最值得關注的。他要求Devin開發(fā)一個解釋“創(chuàng)業(yè)公司融資中的股權稀釋”的網(wǎng)站,隨后透露,AI還無法在沒有任何幫助的情況下,自主且無差錯地完成這項工作。
被認為是炒作!所謂專業(yè)實力,不過是“自導自演”。
可反轉就這么毫無預兆的出現(xiàn)了。
在Cognition官網(wǎng)發(fā)布的長達1分50秒的演示視頻里,Devin只需一句指令,就能實現(xiàn)端到端地處理整個開發(fā)項目。視頻中還表示,它具備自主學習新技術,端到端構建和部署應用,自主查找以及修復代碼問題等方面的能力。此外。,Devin還可以按照用戶需求同時執(zhí)行多步驟工作流程,程序員們可以實時觀察其進度,發(fā)現(xiàn)錯誤時,跳出指令就能修正。
但博主卡爾卻站出來質疑,認為這些宣傳是不實的。Devin在操作過程中看似修復了許多問題,但這些問題很多都是Devin的“自導自演”。他認為,在上述演示視頻的2.936秒處,屏幕左上角顯示“他們搜索過這個任務”,這意味著演示視頻中Devin處理的任務并非隨機,而是演示者選擇的,甚至還出現(xiàn)了“自己現(xiàn)寫bug然后當場修復”的騷操作。
除此之外,Devin還有很多其他的槽點:譬如號稱能解決任何Upwork任務,但演示中解決的問題并不是prompt要解決的那一個,簡直是在做無用功?;蛘呖雌饋碓谛迯蚥ug,但是這些bug毫無意義,因為真正的人類程序員根本就不會犯那種錯誤。還有些時候,Devin就是在做沒有意義的事情,很多事情簡單兩步就能搞定,但它卻花里胡哨的一頓操作,把簡單的問題復雜化。
至于Devin修改代碼的真實水平,也只能說是一言難盡。在演示視頻中,Devin花費了足足6個小時才完成了任務,而這些內(nèi)容,博主卡爾僅用了半個多小時就完成了。
大瓜激起千層浪!專業(yè)人士普遍認為:博主的質疑有理有據(jù)。
博主卡爾的質疑在圈內(nèi)引起了極大的熱度和熱烈的討論,這件事在推特和YouTube的熱度居高不下,成為了網(wǎng)友們爭論的焦點。
一個月前,Devin的誕生成功引起了整個AI圈的注意;如今,Devin的塌房再次吸引到了全AI圈的目光。
而事件背后所承載的影響力也是深遠的。要知道,Devin背后的公司Cognition AI手握10塊IOI金牌的活招牌,還在推出Devin當月宣布成功融資2100萬美金。
Cognition AI背后的團隊成員共10人,核心團隊共有3人,分別是Scott Wu,Steven Hao和Walden Yan,團隊非常年輕。全體成員共擁有10枚國際信息學奧林匹克競賽(IOI)金牌,很多成員在青少年時期也參加過信息學國際奧林匹克競賽等。在發(fā)布“全球首個AI程序員Devin”這一信息后,Cognition AI備受外界關注。公開資料顯示,此前,Cognition AI已經(jīng)獲得了彼得·蒂爾的Founders Fund基金領投的2100萬美元A輪融資。一旦造假事件落下實錘,所能帶來的后坐力無疑是巨大的。
對于博主卡爾的質疑,網(wǎng)絡上的口徑大多是站在了博主一邊,很多網(wǎng)友都對Devin的造假嗤之以鼻。有人還調(diào)侃,“Devin至少掌握了看起來很忙的技巧”,很多專業(yè)人士也認為卡爾的質疑有理有據(jù)。
仔細復盤一下,大家會發(fā)現(xiàn)Devin和Cognition AI的疑點早已存在。直到今天Devin 都沒有開放使用,只能通過郵箱提交申請。所以,外界對Devin的認知,基本都來自官方給出的演示視頻,以及少數(shù)第三方開發(fā)和產(chǎn)品人員的評價,很少有人有機會可以對其進行真正的體驗和測評。
所以,我們有理由相信,從呈現(xiàn)出的結果來看,Devin的確有虛假炒作,過度包裝的嫌疑。如果是頭部巨頭發(fā)布新產(chǎn)品新工具,諸如微軟Copilot這樣的,都會提供充足的上下文。Devin顯然沒有做到,甚至連對程序的邏輯理解都不到位。
但從另一個角度來說,AI程序助手的發(fā)展經(jīng)歷陣痛和挫折在所難免,我們不能因此就質疑整件事情的意義。Devin的功能固然被虛假夸大了,但這并不能否認AI編程的發(fā)展趨勢。AI程序員的存在確實可以協(xié)助人們獨立完成簡單的開發(fā)工作,甚至可以脫離一名真正程序員的幫助,能減少大量不需要創(chuàng)新的重復勞動,例如批量修改代碼的命名風格,代碼的依賴關系等。程序員們依然需要各類代碼輔助工具的幫助,這是大勢所趨。
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規(guī)范轉載侵權必究。
未經(jīng)授權嚴禁轉載,授權事宜請聯(lián)系作者本人,侵權必究。
本文禁止轉載,侵權必究。
授權事宜請至數(shù)英微信公眾號(ID: digitaling) 后臺授權,侵權必究。
評論
評論
推薦評論
暫無評論哦,快來評論一下吧!
全部評論(0條)