26歲的“天才少年”,帶隊面壁打通高效大模型之路
每一輪技術浪潮出現時,沖在最前面的都是朝氣蓬勃的年輕人。
當大模型代表的人工智能浪潮席卷全球,作為移動互聯網“原住民”的年輕開發者,可以說是最活躍的群體。他們的臉龐還有些稚嫩,但在技術和方向上有著自己的想法,在火熱的AI賽道里加速狂奔,努力打下一片新天地。
面壁智能CTO曾國洋就是其中的佼佼者,26歲的年紀管理著清華系明星大模型創業公司的研發團隊,堅定地踏上了AGI征途。
01 十多年開發經驗的創業公司CTO
在許多人的印象中,24歲不過是研究生剛畢業的年紀,剛剛進入職場,扮演的還是“學徒”的角色。但在曾國洋的故事里,24歲已經作為CTO帶領著面壁智能的核心技術團隊,同時也是一位有著十多年經驗的資深開發者。
和OpenAI的創始人Sam Altman一樣,曾國洋在8歲就開始學編程。身邊的朋友、老師、父母等潛移默化地告訴他:“會寫代碼”是一件很厲害的事。于是從Visual Basic開始,懵懵懂懂地開啟了編程之路。
到了中學時,曾國洋已經系統性地接觸了C/C++,喜歡在網上看一些國內外的資料,嘗試寫出更復雜的程序。因為“寫代碼”的愛好,曾國洋在高二時先后獲得全國青少年信息學競賽金牌和亞太地區信息學競賽金牌,并因此被保送到清華,為日后的大模型創業埋下了伏筆。
沒有高考壓力的曾國洋,在2015年的冬令營上了解到曠視正在招實習生,抱著試一試的心態報了名,由此正式步入AI領域。
AlphaGo和李世石的圍棋大戰,點燃了深度學習的熱潮,無數年輕人為之徹夜不眠,曾國洋也不例外。大二期間,在室友的引薦下,曾國洋加入了清華大學NLP實驗室,誤打誤撞成為中國最早一批大模型研究員,并在后來成為悟道·文源中文預訓練模型團隊的骨干成員。
十多年的開發經驗,培養了曾國洋的工程化思維和能力,大學畢業時不甘于做象牙塔里的學術派,毅然加入到了大模型浪潮中。
在OpenAI發布GPT-3的第二年,為了解決大模型“訓練難、微調難、應用難”的挑戰,曾國洋作為聯合發起人創建了OpenBMB開源社區,旨在打造大規模預訓練語言模型庫與相關工具,加速百億級以上大模型的訓練、微調與推理,以降低大模型的使用門檻,實現大模型的標準化、普及化和實用化,讓大模型能夠飛入千家萬戶。
清華大學計算機系長聘副教授劉知遠在2022年牽頭創辦面壁智能時,曾國洋果斷放棄了手里的多個Offer,擔綱這家大模型創業公司的技術1號位,完成了從一線開發者到大模型創業公司CTO的華麗轉身。
02 “高效大模型就是面壁智能”
Scaling law,被看作是 OpenAI 的核心技術,簡單來說,可以通過更復雜的模型、更大的數據量、更多的計算資源,提高模型的性能。前兩年,國內外企業都在卷參數量,做到了千億、萬億,甚至是十萬億,越到后面,但大家漸漸發現參數量更大,不代表模型效果更好。
在曾國洋看來:如果大模型作為實現AGI的關鍵路徑,但成本卻無比高昂,那么即使實現了AGI,但AGI比人還貴、那也沒太大意義,所以要降低模型成本。對于大模型落地來說,效率是很個關鍵的問題,需要控制成本來達到更好的效果,這樣才能去擴展大模型的應用邊界。
不久前舉辦的鯤鵬昇騰開發者大會2024上,曾國洋在演講中表示:“面壁智能持續引領高效大模型路線,推動大模型高效訓練、快步應用落地,以更快速度,更低成本,提供最優智能實現方案。”
首先要解決的就是高效訓練。
公開數據顯示,OpenAI訓練GPT-3的成本約為430萬美元,到了GPT-4已經上漲到7800萬美元,谷歌Gemini Ultra在計算上花費了1.91億美元......比大模型能力更早指數性增長的,居然是大模型的訓練成本。
該怎么提升大模型訓練效率呢?
面壁智能在2024年初的一篇論文中提出了思路:如果大模型還未訓練出來時就能預測性能大約在什么水平,可以先通過小模型做實驗、調參數,再按照相同的數據配比、數調整等方法訓練大模型。
其實在2023年,面壁智能就已經開始探索高效的Scaling Law,用小十倍參數模型預測大十倍參數模型的性能,并且取得了不錯的成績:
旗艦端側基座模型MiniCPM用2.4B的參數量,在性能上越級超越Mistral-7B、Llama2-13B乃至更大的全球知名模型;旗艦端側多模態模型MiniCPM-V刷新了開源模型最佳OCR 表現,部分能力比肩世界級多模態模型標桿 Gemini-Pro 與 GPT-4V。前兩天發布的端側最強多模態模型MiniCPM-Llama3-V 2.5 ,超越多模態巨無霸 Gemini Pro 、GPT-4V實現了「以最小參數,撬動最強性能」的最佳平衡點。“大”并非是唯一選項,小模型也可以實現同樣的效果。
面壁智能的“高效”,不單單體現在訓練環節。
在部署方面,面壁智能是模型廠商中最早提出“端云協同”的,通過協同推理的方式降低降低推理部署的成本、時延和能耗,讓大模型可以跑在手機、電腦、汽車、音箱等低功耗的芯片。
以及大模型驅動的群體智能技術體系,包含智能體通用平臺AgentVerse、技術協同同臺、應用層面的多智能體協作開發框架ChatDev,幫助開發者打通大模型落地應用的最后一公里。
03 全流程加速大模型應用升級
基于豐厚原創技術底蘊,并匹配大模型這一系統工程的本質要求,面壁打造了一條從數據原材料、到模型制作過程中精湛訓練與調校工藝環環相扣的全高效生產線。
譬如面壁智能獨家的“沙盒實驗”,讓小模型驗證大模型性能成為可能;Ultra對齊技術,可以有效大模型的綜合表現;現代化數據工廠,形成從數據治理到多維評測的閉環;高效的Infra,為面壁智能的大模型訓練打好了地基;訓練框架BMTrain、推理框架BMINF、壓縮框架BMCook和微調框架BMTune構成工具套件平臺,可在降低90%的訓練成本同時,將推理速度提升10倍。
在創立之初,面壁智能就開始將大模型和國產軟硬件基礎設施做適配,想要從全流程加速大模型應用升級。直接的例子就是面壁智能和昇騰AI在軟硬件的深度合作。
比如面壁智能基于昇騰基礎軟硬件完成了CPM-BEE大模型和BMTrain加速框架的遷移,通過兩個關鍵步驟實現了BMTrain和昇騰的適配,通過親和融合算子替換實現了大模型的性能提升,最終讓CPM、llama等模型的集群訓練性能與業界持平。
再比如基于昇騰底座采用MindSpore框架開展了深入的創新研究。在微調方面,面壁智能實現了多個下游任務Sora在使用不超過1%的模型參數微調時,仍然能夠超越其他微調方式;針對推理場景,面壁智能通過量化、蒸餾、剪枝等技術的靈活組合,在多項任務上壓縮至1/3時,模型精度仍能保持99%。
國內的大模型團隊中,同時從算力、數據、算法切入的團隊并不多見,為何面壁智能選擇和昇騰AI一起,全面系統地推進大模型上下游工程?
曾國洋曾在媒體采訪中這樣說道:“我們追求的是,在同樣的時間、同等參數量的條件下,實現更優的Scaling Law。當模型的效率優化到一定程度的時候,如果要繼續精進下去,就需要數據、算力與算法多者結合。”
這種不給自己設限的挑戰精神,所帶來的不單單是效率,還有通往AGI道路時的底氣。
不少大模型團隊為算力卡脖子問題焦慮的時候,曾國洋態度相當鎮定:“對于比較早開展大模型研發的團隊來說,國產化適配基本上都已經完成了,因為做的早嘛。其實國產化算力的差距沒有想象的那么大,特別是像昇騰這些設備,目前已經達到了大規模商用的水平。”
和面壁智能一樣,昇騰AI也在全流程使能大模型創新落地,從大模型的開發訓練到推理部署。正是這些同道人的相向而行,讓大模型開發不再是復雜的超級工程,每個開發者都能參與其中。
04 寫在最后
大模型市場競爭激烈,技術迭代日新月異,但曾國洋連續幾個月工作都不覺疲憊,用他自己的話說“因為我很相信 AGI 會實現。”
這正是年輕人的“可愛之處”,他們有挑戰新事物的勇氣,也有躬身入局的行動力,更重要的是,他們還是一群有理想的開發者。就像曾國洋在創辦OpenBMB開源社區的初心:幫助千千萬萬的開發者降低門檻,讓大模型飛入千家萬戶。面壁智能無疑是理想和初心的延續。
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本文禁止轉載,侵權必究。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。
評論
評論
推薦評論
暫無評論哦,快來評論一下吧!
全部評論(0條)