777精品出轨人妻国产,熟女av人妻一区二区三四区,国产精品无码中文在线av,美脚パンスト女教师在线观看

新火種AI|GPT-4o mini突然上線!該換小模型賽道的OpenAI意欲何為?

原創 收藏 評論
舉報 2024-07-22

作者:小巖

編輯:彩云

ChatGPT 正式進入了“4”時代。

7月18日,OpenAI 官宣推出了GPT-3.5 Turbo的替代品——GPT-4o mini,至此,ChatGPT的更新迭代又近了一步,來到了4字開頭的時期。據了解,即日起,ChatGPT的免費用戶,Plus用戶以及Team用戶都能夠使用GPT-4o mini,企業版客戶也會在隨后獲得使用GPT-4o mini的權限。

OpenAI殺入小模型賽道!GPT-4o mini究竟有哪些過人之處?

在各大AI企業爭相推出產品的當下,OpenAI的更新速度并不算太快。很多人都希望蟄伏許久的OpenAI能夠一出手,就干件大事兒,諸如推出一個在各個方面都能碾壓上一代產品的GPT-5.0。也正因此,很多人對于GPT-4o mini的出現感到些許失望。

但需要說明的是,GPT-4.o mini不僅不是一無是處,反而是一個極具代表性的產品。OpenAI把GPT-4o mini描述為“一個具有卓越文本智能和多模態推理能力的小模型”,這就對其進行了精準定位:小模型賽道上的領先產品。

圖片1.png

據OpenAI介紹,GPT-4o mini目前在LMSYS排行榜上的聊天偏好方面優于GPT-4,在文本智能和多模態推理方面的學術基準測試中超越了GPT-3.5 Turbo和其他小型模型,并且支持的語言范圍與GPT-4o相同。而GPT-4o mini在函數調用方面也表現出色,可以使開發人員構建獲取數據或使用外部系統采取行動的應用程序。

此外,與GPT-3.5 Turbo相比,GPT-4o mini的長上下文性能有所提高,已經在幾個關鍵基準上進行了評估,即推理任務,數學和編碼能力以及多模態推力。

在推理任務方面,GPT-4o mini在涉及文本和視覺的推理任務上優于其他小型模型,在文本智能和推理基準MMLU上的得分為82.0%,而Gemini Flash為77.9%,Claude Haiku為73.8%;在數學和編碼能力方面,GPT-4o mini的表現優于市場上之前的小型模型,在測量數學推理的MGSM上,GPT-4o mini得分為 87.0%,而Gemini Flash得分為75.5%,Claude Haiku得分為71.7%;在測量編碼性能的HumanEval上,GPT-4o mini得分為87.2%,而Gemini Flash得分為71.5%,Claude Haiku得分為75.9%;在多模態推理方面,GPT-4o mini在多模態推理評估MMMU中也表現出色,得分為59.4%,而Gemini Flash為56.1%,Claude Haiku為50.2%。

圖片2.png

更重要的是,GPT-4o mini還有一項極具競爭力的優勢:價格足夠實惠。

OpenAI表示,開發人員使用GPT-4o mini時,每100萬個輸入tokens需支付15美分,每100萬個輸出tokens需支付60美分。這個定價比之前的Frontier型號便宜了足足一個數量級。即便與自家的上一代產品GPT-3.5 Turbo也要便宜60%以上。

GPT-4o用起來究竟如何?一手測評結果:懂得不算多,但速度絕對快。

當然,理論上的優勢說的再多,也不及大家的實際體驗來得重要和直觀。

目前,GPT-4o mini 在 WildBench 測試上排名第9,優于谷歌的Gemini-flash以及 Anthropic的Claude 3 Haiku。看得出來,大家對于這款新晉產品還是很感興趣的。

有網友在GPT-4o mini開放測試的第一時間就趕過去問它了一個問題:9.11和9.9哪個大?

很遺憾,GPT-4o mini沒有給出正確的答案,不僅沒有給出正確的答案,還在錯誤的路上越走越遠,一本正經地回答9.11大于9.9,因為0.1大于0.9。

圖片3.png

隨后,網友在 Poe(Quora 開發的應用程序,已經集成了 GPT-4o mini)中輸入人物傳記電影《Eno》的設計封面,讓GPT-4o和GPT-4omini模型進行解讀,結果 mini翻車了。GPT-4o mini 直接表示“自己認不出照片上的人”,反而是GPT-4o的回答就比較準確。

不過,說起響應速度,那么GPT-4o mini確實對得起OpenAI給予的“faster”標簽。與它進行對話,幾乎無需任何等待,輸出速度堪稱快的離譜。

盡管就目前來看,GPT-4o mini回答問題的準確性還有待提高,但不可否認,它目前已經是性能最為優越的小模型了,完全可以超越GPT-3.5 Turbo和其他小模型。據了解,GPT-4o mini的知識更新到去年10月,語言種類和GPT-4o對齊,上下文窗口為128k。

圖片4.png

當下的GPT-4.o mini在API中僅支持文本和視覺模態,而在不久的未來,它還將擴展到視頻和音頻的輸入及輸出。盡管還沒有任何參數規模被披露,但OpenAI的官方直接表示,這是他們目前最經濟,最有成本效益的小模型了,微調功能也將很快上線。

小模型的出現,才能真正完成OpenAI的使命?

雖然GPT-4o mini是一個小模型,但相較于大模型,它在性能上并沒有做出太大妥協。

得益于優化的架構設計和高效的算法,GPT-4o mini 能夠在保留大模型強大性能的基礎上,提供更加輕量級的解決方案。這使得它在處理文本生成,對話和翻譯等任務時,依然能夠表現出色。

但是問題來了,先前一直在做大模型的OpenAI為什么選擇轉頭深耕小模型賽道?

OpenAI API方面的負責人Godement表示,這涉及到一個“優先考慮”的問題。此前,OpenAI專注于GPT-4這樣的大模型,而隨著時間的推移,OpenAI終于注意到了開發者們渴望對小模型的愿景,才終于決定投入資源。據了解,OpenA對于GPT-4o mini是非常有信心的,認為其一定會非常受歡迎。

圖片5.png

事實的確如此。對于渴望低成本構建應用的開發者來說,GPT-4o mini來得太及時了。譬如金融初創公司Ramp在測試中,就用它構建了提取收據上費用的工具,不必費力瀏覽文本框,模型就會自動對所有內容排序,大大提高了工作效率。

在OpenAI設想的未來里,模型將會被無縫集成到每一個應用程序和每一個網站之上。如今,隨著GPT-4o mini的推出為開發者更高效、更經濟地構建和擴展強大的AI應用鋪平道路。可以看到,AI正在變得更容易訪問,可靠,并會融入到所有人的日常體驗中。而OpenAI,則會繼續引領這一進程。

曾幾何時,OpenAI也是一心要走大模型之路的,可惜這條路它們走得并不順利。盡管相較于上一波AI公司,OpenAI創造了更大的現金流,但從戰略上說,它并沒有把自己倒騰到一個合適的位置上。

在這種情況下,一味死磕大模型,很有可能給公司造成毀滅性的打擊,會導致高昂的人才,訓練成本根本找不到落點。更可怕的是,一旦技術增長停滯后,它的客戶端注定會把它踢掉或者在多個供應商之間壓價。這就會導致大模型公司變成賺錢費勁,花錢很痛快的公司,這是沒法長久維持的。所以做大模型。不管創造了多少收入,本質上還在險境里面。

如今,OpenAI顯然找到了更適合自己的打開方式。但有一點毋庸置疑,大模型要卷,小模型也要卷,不卷是不可能的。


本文系作者授權數英發表,內容為作者獨立觀點,不代表數英立場。
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
本文系作者授權數英發表,內容為作者獨立觀點,不代表數英立場。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本內容為作者獨立觀點,不代表數英立場。
本文禁止轉載,侵權必究。
本文系數英原創,未經允許不得轉載。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。

    評論

    文明發言,無意義評論將很快被刪除,異常行為可能被禁言
    DIGITALING
    登錄后參與評論

    評論

    文明發言,無意義評論將很快被刪除,異常行為可能被禁言
    800

    推薦評論

    暫無評論哦,快來評論一下吧!

    全部評論(0條)

    主站蜘蛛池模板: 乐昌市| 台中县| 阆中市| 博罗县| 吴旗县| 织金县| 晋宁县| 荔波县| 健康| 永寿县| 邯郸市| 长汀县| 大渡口区| 清新县| 景宁| 望江县| 洛阳市| 金秀| 太仓市| 阿拉善右旗| 嘉鱼县| 磴口县| 泰安市| 驻马店市| 衡东县| 股票| 澄迈县| 德州市| 景谷| 上高县| 华阴市| 梅河口市| 洛浦县| 白沙| 竹溪县| 开阳县| 中西区| 宁化县| 义乌市| 宜兰县| 阿拉善左旗|