新火種AI|GPT-4o mini突然上線!該換小模型賽道的OpenAI意欲何為?
作者:小巖
編輯:彩云
ChatGPT 正式進入了“4”時代。
7月18日,OpenAI 官宣推出了GPT-3.5 Turbo的替代品——GPT-4o mini,至此,ChatGPT的更新迭代又近了一步,來到了4字開頭的時期。據了解,即日起,ChatGPT的免費用戶,Plus用戶以及Team用戶都能夠使用GPT-4o mini,企業版客戶也會在隨后獲得使用GPT-4o mini的權限。
OpenAI殺入小模型賽道!GPT-4o mini究竟有哪些過人之處?
在各大AI企業爭相推出產品的當下,OpenAI的更新速度并不算太快。很多人都希望蟄伏許久的OpenAI能夠一出手,就干件大事兒,諸如推出一個在各個方面都能碾壓上一代產品的GPT-5.0。也正因此,很多人對于GPT-4o mini的出現感到些許失望。
但需要說明的是,GPT-4.o mini不僅不是一無是處,反而是一個極具代表性的產品。OpenAI把GPT-4o mini描述為“一個具有卓越文本智能和多模態推理能力的小模型”,這就對其進行了精準定位:小模型賽道上的領先產品。
據OpenAI介紹,GPT-4o mini目前在LMSYS排行榜上的聊天偏好方面優于GPT-4,在文本智能和多模態推理方面的學術基準測試中超越了GPT-3.5 Turbo和其他小型模型,并且支持的語言范圍與GPT-4o相同。而GPT-4o mini在函數調用方面也表現出色,可以使開發人員構建獲取數據或使用外部系統采取行動的應用程序。
此外,與GPT-3.5 Turbo相比,GPT-4o mini的長上下文性能有所提高,已經在幾個關鍵基準上進行了評估,即推理任務,數學和編碼能力以及多模態推力。
在推理任務方面,GPT-4o mini在涉及文本和視覺的推理任務上優于其他小型模型,在文本智能和推理基準MMLU上的得分為82.0%,而Gemini Flash為77.9%,Claude Haiku為73.8%;在數學和編碼能力方面,GPT-4o mini的表現優于市場上之前的小型模型,在測量數學推理的MGSM上,GPT-4o mini得分為 87.0%,而Gemini Flash得分為75.5%,Claude Haiku得分為71.7%;在測量編碼性能的HumanEval上,GPT-4o mini得分為87.2%,而Gemini Flash得分為71.5%,Claude Haiku得分為75.9%;在多模態推理方面,GPT-4o mini在多模態推理評估MMMU中也表現出色,得分為59.4%,而Gemini Flash為56.1%,Claude Haiku為50.2%。
更重要的是,GPT-4o mini還有一項極具競爭力的優勢:價格足夠實惠。
OpenAI表示,開發人員使用GPT-4o mini時,每100萬個輸入tokens需支付15美分,每100萬個輸出tokens需支付60美分。這個定價比之前的Frontier型號便宜了足足一個數量級。即便與自家的上一代產品GPT-3.5 Turbo也要便宜60%以上。
GPT-4o用起來究竟如何?一手測評結果:懂得不算多,但速度絕對快。
當然,理論上的優勢說的再多,也不及大家的實際體驗來得重要和直觀。
目前,GPT-4o mini 在 WildBench 測試上排名第9,優于谷歌的Gemini-flash以及 Anthropic的Claude 3 Haiku。看得出來,大家對于這款新晉產品還是很感興趣的。
有網友在GPT-4o mini開放測試的第一時間就趕過去問它了一個問題:9.11和9.9哪個大?
很遺憾,GPT-4o mini沒有給出正確的答案,不僅沒有給出正確的答案,還在錯誤的路上越走越遠,一本正經地回答9.11大于9.9,因為0.1大于0.9。
隨后,網友在 Poe(Quora 開發的應用程序,已經集成了 GPT-4o mini)中輸入人物傳記電影《Eno》的設計封面,讓GPT-4o和GPT-4omini模型進行解讀,結果 mini翻車了。GPT-4o mini 直接表示“自己認不出照片上的人”,反而是GPT-4o的回答就比較準確。
不過,說起響應速度,那么GPT-4o mini確實對得起OpenAI給予的“faster”標簽。與它進行對話,幾乎無需任何等待,輸出速度堪稱快的離譜。
盡管就目前來看,GPT-4o mini回答問題的準確性還有待提高,但不可否認,它目前已經是性能最為優越的小模型了,完全可以超越GPT-3.5 Turbo和其他小模型。據了解,GPT-4o mini的知識更新到去年10月,語言種類和GPT-4o對齊,上下文窗口為128k。
當下的GPT-4.o mini在API中僅支持文本和視覺模態,而在不久的未來,它還將擴展到視頻和音頻的輸入及輸出。盡管還沒有任何參數規模被披露,但OpenAI的官方直接表示,這是他們目前最經濟,最有成本效益的小模型了,微調功能也將很快上線。
小模型的出現,才能真正完成OpenAI的使命?
雖然GPT-4o mini是一個小模型,但相較于大模型,它在性能上并沒有做出太大妥協。
得益于優化的架構設計和高效的算法,GPT-4o mini 能夠在保留大模型強大性能的基礎上,提供更加輕量級的解決方案。這使得它在處理文本生成,對話和翻譯等任務時,依然能夠表現出色。
但是問題來了,先前一直在做大模型的OpenAI為什么選擇轉頭深耕小模型賽道?
OpenAI API方面的負責人Godement表示,這涉及到一個“優先考慮”的問題。此前,OpenAI專注于GPT-4這樣的大模型,而隨著時間的推移,OpenAI終于注意到了開發者們渴望對小模型的愿景,才終于決定投入資源。據了解,OpenA對于GPT-4o mini是非常有信心的,認為其一定會非常受歡迎。
事實的確如此。對于渴望低成本構建應用的開發者來說,GPT-4o mini來得太及時了。譬如金融初創公司Ramp在測試中,就用它構建了提取收據上費用的工具,不必費力瀏覽文本框,模型就會自動對所有內容排序,大大提高了工作效率。
在OpenAI設想的未來里,模型將會被無縫集成到每一個應用程序和每一個網站之上。如今,隨著GPT-4o mini的推出為開發者更高效、更經濟地構建和擴展強大的AI應用鋪平道路。可以看到,AI正在變得更容易訪問,可靠,并會融入到所有人的日常體驗中。而OpenAI,則會繼續引領這一進程。
曾幾何時,OpenAI也是一心要走大模型之路的,可惜這條路它們走得并不順利。盡管相較于上一波AI公司,OpenAI創造了更大的現金流,但從戰略上說,它并沒有把自己倒騰到一個合適的位置上。
在這種情況下,一味死磕大模型,很有可能給公司造成毀滅性的打擊,會導致高昂的人才,訓練成本根本找不到落點。更可怕的是,一旦技術增長停滯后,它的客戶端注定會把它踢掉或者在多個供應商之間壓價。這就會導致大模型公司變成賺錢費勁,花錢很痛快的公司,這是沒法長久維持的。所以做大模型。不管創造了多少收入,本質上還在險境里面。
如今,OpenAI顯然找到了更適合自己的打開方式。但有一點毋庸置疑,大模型要卷,小模型也要卷,不卷是不可能的。
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本文禁止轉載,侵權必究。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。
評論
評論
推薦評論
暫無評論哦,快來評論一下吧!
全部評論(0條)