大模型的春天,與百度的答卷
作者丨暫存盤
編輯丨Han
2023年,國內大模型領域人聲鼎沸。不過外行看熱鬧,內行看門道,面對大模型的誘惑,許多創業者持謹慎態度,比如零假設科技CEO顧飛。
“大概三個月前,我們還是不太信任國內大模型。但是差不多在兩個月之前,我們又試了一次百度的大模型,比想象要好很多。”顧飛回憶道。
零假設科技主要是為醫療專業人士,提供自動化的醫學內容檢索、分析和生成工具。此前,醫學領域的產品的準確性和易用性很難兩全,大模型出現后,顧飛看到了兩者平衡的可能性。
“我們是不可能從基礎大模型開始做,所以必須尋求基礎設施。”顧飛開始和大模型企業溝通。
“第一個接觸的是GPT,但客觀的說GPT不太適合中國人的思維或者闡述方式。我們也考察過行業的其他大模型,有的一旦提到開放API的時候就不愿意了,我們認為這是不自信的表現;有的可能是效果看起來好,但是實際真的API不會那么好。”
在一次次的溝通下,顧飛開始對大模型的信任感逐漸降低。眾里尋TA千百度,今年5月,百度啟動了“文心杯”創業大賽(以下稱為“文心杯”),試圖尋找基于文心大模型開發的應用demo潛力股,零假設科技深度參與其中。
“百度愿意開放API接口?!鳖欙w重拾信任的理由很簡單。自身擁有專業的醫學知識庫及相關檢索推薦能力,他認為文心大模型可以發揮強大的語言能力,幫助解決易用性的問題,二者一拍即合。“文心一言出來的文獻總結在意思上和GPT差異不是那么大,會更流暢,符合中國人的語言習慣。”
經歷了喧囂的百團大戰,大模型開始進入“亮劍”階段。如何平衡技術成本與可持續發展的天平,如何融合技術能力與實際應用的縫隙,大模型企業更要“面面俱到”。
韜光養晦,深耕AI十余年的百度,是否有望成為中國大模型領域的“六邊形戰士”?
01 十年磨一劍,AI基礎能力沉淀
每一個時代風口都不缺乏前赴后繼的挑戰者,但往往成功的機會是留給有準備的人。做為中國大模型探索的先行者,百度的厚積薄發主要源于十余年的沉淀以及投入。
誕生之初,百度就和自然語言處理、信息檢索等AI技術有著密切聯系。2010年,百度開始探索更豐富的AI技術,包括機器學習、深度學習、自然語言處理等技術。2013年,百度成立了世界上第一個深度學習研究院(IDL)。
在AI發展軌跡中,百度始終堅持長期主義,持續性投入。公開數據顯示,百度近十年累計研發投入超1400億元,核心研發投入曾連續7個季度占百度核心收入比例超過20%。
壓強式研發投入讓百度實現厚積薄發,李彥宏曾提到,人類進入AI時代,IT技術的技術棧從過去的三層:芯片層、操作系統層和應用層,變為現在的四層:芯片層、框架層、模型層和應用層。百度如今在芯片層擁有昆侖芯,框架層有飛槳平臺,模型層以文心大模型為代表,應用則有智能駕駛等場景。
根據李彥宏介紹,全棧布局的優勢在于,可以在技術棧的四層架構中,實現端到端優化,大幅提升效率。比如:飛槳與文心協同,讓文心大模型3.5最新版本的模型效果提升50%,訓練速度提升2倍,推理速度提升30倍。
基于深厚的技術優勢以及生態開放,百度四層技術棧獨立作戰時也展現了強勁的表現力。
截至2022年12月,通信通院最新報告顯示,飛槳已經成為中國深度學習市場應用規模第一的深度學習框架和賦能平臺。最新數據顯示,已凝聚800萬名開發者,服務22萬家企事業單位并基于飛槳創建了80萬個模型。
只有身臨其中,才能對百度的AI能力擁有更直觀的感受以及客觀的評價。
AI平面設計及創意生成平臺Nolibox的CEO 徐作彪分享道:“文心大模型在語料庫、細分場景的定制化,以及合規等方面都是挺好的。而且對于我們而言,百度除了大模型也可以提供更底層的服務,比如說百度智能云的算力、飛槳的框架,我們會用場景自研大模型、再加上百度文心大模型做一個整合幫助打造更好的產品去服務細分場景和客戶?!?/p>
“其實百度在過去十幾年中持續在AI研發上堅持投入,文心大模型第一個版本2019年就發布了,此后的每一年都發布一個新版本,從這個意義上說,文心一言的發布只是我們過去多年努力的一個自然延續?!痹谏习肽甑奈男囊谎园l布會上,李彥宏說道。低調平和的話語背后,是多年沉淀的技術底蘊。
02 數據、用戶、場景,大模型落地三件套
實踐是淘汰裸泳者的唯一標準,酷炫的大模型只有真正滲透到商業應用中才能去除泡沫。順利過渡到商業化階段,數據、用戶、場景是大模型落地必不可少的三件套。近期,百度率先面向全社會開放服務,這一舉動正是頗有說服力的論證:公眾社會可以提供真實用戶,海量數據以及豐富的應用場景,這些元素均是當前大模型可持續發展的必要條件。
正如中國國家創新與發展戰略研究會副會長呂本富所言:“自帶場景、數據和用戶的平臺企業可以有效填補基礎模型和場景之間的認知鴻溝,因此成為從平臺經濟過渡到智能經濟的中樞?!?/p>
數據層面,量和質都是關鍵。
數據的量對于百度而言并非難事。此前朱嘯虎曾稱:在大模型行業,模型、算力和數據,三大支柱都向大廠集中。基于廣泛的數據量,在數據的利用率上,作為搜索引擎,百度平臺本身就有數據標注以及邏輯關系建立的天然優勢,可以大幅度提升數據的利用率。
ChatDOC,一家基于文檔智能的專業知識問答助手及閱讀平臺企業。該公司CEO林得苗用一個實際的場景案例分享了百度大模型在數據利用率方面的優勢,“以前我們在一段內容里找出結構化數據,通常只能找出那些訓練過的內容,比如說訓練過財務的數據,但如果涉及到一些業務知識、產品信息,沒有訓練過的數據搜索效果就一般。但大模型有這個能力,因為他可以包括了更豐富的行業數據訓練?!?/p>
真實的用戶反饋也是大模型實際落地的重要環節,百度的搜索引擎是天然的交互型生成式AI應用。李彥宏曾表示,當文心一言向數以億計互聯網用戶大規模開放服務后,能夠獲得大量真實世界中的人工反饋,這將進一步改進基礎模型,并以更快速度迭代文心一言,創造更好的用戶體驗。
大模型的生存最終還是回到解決什么問題上,即找到合適的應用場景。如前文所述,百度AI技術棧本身就建立了豐富的應用層,且在近年的新基建中百度已經有豐富的場景服務能力,無論是to B還是to C,其均有大量經驗。
“每一個產品都值得重做一遍。但誰真正重新做了一遍呢?百度要做第一個把全部產品重做一遍的公司,不是整合,不是接入,是重做,重構!”李彥宏的一句話中透露了百度公司內自上而下的新技術重構策略,這給大模型應用前景提供了足夠的發展空間,技術與業務互相反饋。
如今,新技術重構業務策略的正確性與前瞻性已經被逐漸驗證。
分析機構麥格理表示,今年百度在大模型領域的新探索或將推動公司實現發展新高度。據百度官方數據顯示,文心一言開放首日戰報:共回復網友超過 3342 萬個問題,開放下載 19 小時之內日活躍用戶突破 100 萬。隨著文心一言的開放,百度搜索業務將有望進一步增長,取得用戶留存率增長,也或將推動廣告業務增長。
基于AI技術能力沉淀,以及大企業的龐大商業版圖優勢,百度新技術可以先在集團內部實現快速驗證。而綜合實力加持下的百度大模型落地能力表現幾何?其業務增長數據就是答案。
03 做中國大模型的挖井人
有數據顯示,目前,國內已推出超100款大模型產品,且同質化嚴重。熱潮過后,商業價值大考令許多大模型創業者絞盡腦汁。
據IDC《AI大模型技術能力評估報告,2023》顯示:百度獲算法模型、行業覆蓋唯一滿分,報告指出,百度AI大模型整體競爭力位于領先水平,在模型能力、工具平臺、生態布局以及行業覆蓋上優勢明顯,并已提前進入商業化落地探索階段。
基于李彥宏提出的“重構”戰略,百度大模型已經悄然進入到具體的應用解決方案。在9月5日,百度智能云千帆大模型平臺首次公布月活企業數已近萬家,覆蓋金融、制造、能源、政務、交通等行業的400多個業務場景。推出了四個升級版的行業解決方案:數字政府解決方案九州、金融解決方案開元、工業解決方案開物、智能交通解決方案ACE3.0。
據顯示,文心大模型包含數 30 多個大模型,涵蓋基礎大模型、任務大模型、行業大模型的三級體系,可以全面滿足產業應用需求,應用延展性較強,商業價值空間大。
大模型產業能否常青,生態發展很重要。從更龐大的價值潛力來看,就像安卓系統于移動端應用的關系,做裁判優過做選手。而百度做大模型的挖井人,再適合不過。
“我們希望創業者在文心大模型之上,可以做出AI時代的爆款應用?!崩顝┖攴Q。為此,百度在發布文心一言后不久,便啟動了百度“文心杯”創業大賽,召集全球最優秀的AI創業者。
如同李彥宏所言,模型本身是不直接產生價值的,基于基礎大模型開發出來的應用才是模型存在的意義,對于創業者來說,“卷大模型沒有意義,卷應用機會更大”。
“大語言模型本身就是一個工具。我們核心其實不在于大語言模型本身,而是如何讓AI能夠勝任人類導購的一個角色?!盉uysmart.AI是一個基于大模型的智能電商購物助手,類似AI買手,主要面向海外,該公司創始人陳歷飛在賽后采訪時分享道。
對于創業企業而言,如何借力大企業的底層技術能力,搭建自身的核心護城河才是競爭關鍵,這即是“卷應用”。
在歷史的公開演講中,李彥宏在解釋百度做大模型生態的用意時,更多是站在宏觀的視角,比如產業持續發展和生產效率變革:
一方面,從行業發展來看,有在大模型基礎上產生足夠多的AI原生應用,才是一個健康的生態環境;
另一方面,從產生的生產力價值上,他認為新的國際競爭戰略關鍵點不是一個國家有多少個大模型,而是大模型上有多少原生的AI應用,這些應用又在多大程度上提升了生產效率。
據介紹,自5月31日“文心杯”啟動以來,大賽吸引了近 1000 個項目報名,帶來生產力工具、營銷、文娛、社交、電商等領域的大量AI原生應用;其中30多個具有創新性的潛力項目入圍Demo開發環節,接入百度智能云千帆大模型平臺、進行基于文心大模型的Demo開發。
在模型落地過渡時,百度此次“文心杯”的舉辦對于行業發展有推動意義:一方面提高產業整體對大模型的認知度;另一方面,積極的參賽團隊也能夠獲得的大量珍貴且具有實際意義價值的反饋,促進文心一言迭代,創造更好的用戶體驗。
結語
前不久,朱嘯虎和傅盛在朋友圈關于大模型創業機會的一次“battle”在行業中引發熱議:二人針對大模型中的創業機會進行激烈討論。朱嘯虎認為創業公司直接在大模型上做應用護城河太低。傅盛認為大模型催生了很多新的架構在大模型之上的垂直創業機會。
對于創業公司來說,燒錢從零到一做大模型的確是不理想,無論是互聯網還是AI時代,基于投入產出比,許多新興企業的機會點都在于垂直領域。且對于許多企業而言,大模型是生產力工具的迭代優化,而非是炫技,最終還是要體現在產品的優化體驗上。
朱嘯虎的“不要迷戀通用大模型“是一個非常理性的提醒,回歸到一個新前沿技術的健康發展軌跡,不同規模的企業需要有自己的定位和擔當,有效的通力合作才能成功突破人類過去沒有突破過的極限。
大模型能力,百度,已然證明了自己。激活生態,百度正在影響中國大模型行業的未來。
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本文禁止轉載,侵權必究。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。
評論
評論
推薦評論
暫無評論哦,快來評論一下吧!
全部評論(0條)