新火種AI|GPT-4o mini突然上線！該換小模型賽道的OpenAI意欲何為？

原創贊收藏評論

舉報 2024-07-22

掃描,分享朋友圈

作者：小巖

編輯：彩云

ChatGPT 正式進入了“4”時代。

7月18日，OpenAI 官宣推出了GPT-3.5 Turbo的替代品——GPT-4o mini，至此，ChatGPT的更新迭代又近了一步，來到了4字開頭的時期。據了解，即日起，ChatGPT的免費用戶，Plus用戶以及Team用戶都能夠使用GPT-4o mini，企業版客戶也會在隨后獲得使用GPT-4o mini的權限。

OpenAI殺入小模型賽道！GPT-4o mini究竟有哪些過人之處？

在各大AI企業爭相推出產品的當下，OpenAI的更新速度并不算太快。很多人都希望蟄伏許久的OpenAI能夠一出手，就干件大事兒，諸如推出一個在各個方面都能碾壓上一代產品的GPT-5.0。也正因此，很多人對于GPT-4o mini的出現感到些許失望。

但需要說明的是，GPT-4.o mini不僅不是一無是處，反而是一個極具代表性的產品。OpenAI把GPT-4o mini描述為“一個具有卓越文本智能和多模態推理能力的小模型”，這就對其進行了精準定位：小模型賽道上的領先產品。

圖片1.png

據OpenAI介紹，GPT-4o mini目前在LMSYS排行榜上的聊天偏好方面優于GPT-4，在文本智能和多模態推理方面的學術基準測試中超越了GPT-3.5 Turbo和其他小型模型，并且支持的語言范圍與GPT-4o相同。而GPT-4o mini在函數調用方面也表現出色，可以使開發人員構建獲取數據或使用外部系統采取行動的應用程序。

此外，與GPT-3.5 Turbo相比，GPT-4o mini的長上下文性能有所提高,已經在幾個關鍵基準上進行了評估，即推理任務，數學和編碼能力以及多模態推力。

在推理任務方面，GPT-4o mini在涉及文本和視覺的推理任務上優于其他小型模型，在文本智能和推理基準MMLU上的得分為82.0%，而Gemini Flash為77.9%，Claude Haiku為73.8%；在數學和編碼能力方面，GPT-4o mini的表現優于市場上之前的小型模型，在測量數學推理的MGSM上，GPT-4o mini得分為 87.0%，而Gemini Flash得分為75.5%，Claude Haiku得分為71.7%；在測量編碼性能的HumanEval上，GPT-4o mini得分為87.2%，而Gemini Flash得分為71.5%，Claude Haiku得分為75.9%；在多模態推理方面，GPT-4o mini在多模態推理評估MMMU中也表現出色，得分為59.4%，而Gemini Flash為56.1%，Claude Haiku為50.2%。

圖片2.png

更重要的是，GPT-4o mini還有一項極具競爭力的優勢：價格足夠實惠。

OpenAI表示，開發人員使用GPT-4o mini時，每100萬個輸入tokens需支付15美分，每100萬個輸出tokens需支付60美分。這個定價比之前的Frontier型號便宜了足足一個數量級。即便與自家的上一代產品GPT-3.5 Turbo也要便宜60%以上。

GPT-4o用起來究竟如何？一手測評結果：懂得不算多，但速度絕對快。

當然，理論上的優勢說的再多，也不及大家的實際體驗來得重要和直觀。

目前，GPT-4o mini 在 WildBench 測試上排名第9，優于谷歌的Gemini-flash以及 Anthropic的Claude 3 Haiku。看得出來，大家對于這款新晉產品還是很感興趣的。

有網友在GPT-4o mini開放測試的第一時間就趕過去問它了一個問題：9.11和9.9哪個大？

很遺憾，GPT-4o mini沒有給出正確的答案，不僅沒有給出正確的答案，還在錯誤的路上越走越遠，一本正經地回答9.11大于9.9，因為0.1大于0.9。

圖片3.png

隨后，網友在 Poe（Quora 開發的應用程序，已經集成了 GPT-4o mini）中輸入人物傳記電影《Eno》的設計封面，讓GPT-4o和GPT-4omini模型進行解讀，結果 mini翻車了。GPT-4o mini 直接表示“自己認不出照片上的人”，反而是GPT-4o的回答就比較準確。

不過，說起響應速度，那么GPT-4o mini確實對得起OpenAI給予的“faster”標簽。與它進行對話，幾乎無需任何等待，輸出速度堪稱快的離譜。

盡管就目前來看，GPT-4o mini回答問題的準確性還有待提高，但不可否認，它目前已經是性能最為優越的小模型了，完全可以超越GPT-3.5 Turbo和其他小模型。據了解，GPT-4o mini的知識更新到去年10月，語言種類和GPT-4o對齊，上下文窗口為128k。

圖片4.png

當下的GPT-4.o mini在API中僅支持文本和視覺模態，而在不久的未來，它還將擴展到視頻和音頻的輸入及輸出。盡管還沒有任何參數規模被披露，但OpenAI的官方直接表示，這是他們目前最經濟，最有成本效益的小模型了，微調功能也將很快上線。

小模型的出現，才能真正完成OpenAI的使命？

雖然GPT-4o mini是一個小模型，但相較于大模型，它在性能上并沒有做出太大妥協。

得益于優化的架構設計和高效的算法，GPT-4o mini 能夠在保留大模型強大性能的基礎上，提供更加輕量級的解決方案。這使得它在處理文本生成，對話和翻譯等任務時，依然能夠表現出色。

但是問題來了，先前一直在做大模型的OpenAI為什么選擇轉頭深耕小模型賽道？

OpenAI API方面的負責人Godement表示，這涉及到一個“優先考慮”的問題。此前，OpenAI專注于GPT-4這樣的大模型，而隨著時間的推移，OpenAI終于注意到了開發者們渴望對小模型的愿景，才終于決定投入資源。據了解，OpenA對于GPT-4o mini是非常有信心的，認為其一定會非常受歡迎。

圖片5.png

事實的確如此。對于渴望低成本構建應用的開發者來說，GPT-4o mini來得太及時了。譬如金融初創公司Ramp在測試中，就用它構建了提取收據上費用的工具，不必費力瀏覽文本框，模型就會自動對所有內容排序，大大提高了工作效率。

在OpenAI設想的未來里，模型將會被無縫集成到每一個應用程序和每一個網站之上。如今，隨著GPT-4o mini的推出為開發者更高效、更經濟地構建和擴展強大的AI應用鋪平道路。可以看到，AI正在變得更容易訪問，可靠，并會融入到所有人的日常體驗中。而OpenAI，則會繼續引領這一進程。

曾幾何時，OpenAI也是一心要走大模型之路的，可惜這條路它們走得并不順利。盡管相較于上一波AI公司，OpenAI創造了更大的現金流，但從戰略上說，它并沒有把自己倒騰到一個合適的位置上。

在這種情況下，一味死磕大模型，很有可能給公司造成毀滅性的打擊，會導致高昂的人才，訓練成本根本找不到落點。更可怕的是，一旦技術增長停滯后，它的客戶端注定會把它踢掉或者在多個供應商之間壓價。這就會導致大模型公司變成賺錢費勁，花錢很痛快的公司，這是沒法長久維持的。所以做大模型。不管創造了多少收入，本質上還在險境里面。

如今，OpenAI顯然找到了更適合自己的打開方式。但有一點毋庸置疑，大模型要卷，小模型也要卷，不卷是不可能的。

本文系作者授權數英發表，內容為作者獨立觀點，不代表數英立場。
轉載請在文章開頭和結尾顯眼處標注：作者、出處和鏈接。不按規范轉載侵權必究。