777精品出轨人妻国产,熟女av人妻一区二区三四区,国产精品无码中文在线av,美脚パンスト女教师在线观看

文心大模型踏上新征程:讀懂產業剛需,摸清落地路徑

原創 收藏 評論
舉報 2022-05-20

作為深度學習領域最大規模的開發者盛會,Wave Summit深度學習開發者峰會已經進入到第四個年頭。

和2019年首屆峰會時的情形做個對比的話,人工智能的產業應用落地有著肉眼可見的進步:正在從部分場景滲透到千行百業,由局部探索升級為全面落地,人工智能技術的通用性越來越強,不再是少數幾家科技巨頭的專屬,而是一步步向普惠AI演進,同時中國的產業智能化進程也從破局階段進入了深水區。

當一個行業進入“深水區”的時候,往往也伴隨著新的瓶頸:算力、算法、數據等要素應如何滿足;人工智能技術如何快速下沉到碎片化的場景;百萬級的人才缺口如何填補……這些繁瑣且迫切的挑戰直接關系著AI產業化的成色。

2019年就錨定“工業大生產”的飛槳,自然也在思索上述問題的解法,并在Wave Summit 2022上給出了自己的思路。

01 被寄予厚望的“大模型”

自從GPT-3在人工智能研究領域“出圈”后,谷歌、微軟、英偉達、百度等科技巨頭迅速掀起了一場比拼資金和人才的“軍備競賽”。

OpenAI在2020年發布的NLP預訓練模型GPT-3,模型參數達到了1750億個;谷歌在2021年初發布的Switch Transformer,對外宣稱是萬億級的模型;微軟和英偉達在當年11月完成了5300億參數的MT-NLG,為此燒壞了4480塊CPU……

中國的科技企業同樣下場參戰。百度在2019年就開始深耕預訓練模型,當年3月發布了中國首個正式開放的預訓練模型ERNIE1.0,并在2021年12月聯合鵬城實驗室發布了全球首個知識增強的千億大模型——2600億參數規模的鵬城-百度·文心大模型。華為、阿里、浪潮等也紛紛發力大模型,平均的模型參數超過百億級。

為何科技巨頭們對預訓練大模型寄予厚望?其中的原因離不開預訓練技術的誘人前景:可以用自監督學習的方法讓模型對海量無標注數據中的規律和知識進行提煉、學習,當面向任務和場景應用時,只需要少量的任務標注數據,就能通過持續微調得到在應用場景中非常好用的模型。

預訓練大模型就像是找到了從“原油”中提煉“成品油”的方法。意味著開發者可以將天然存在的大量數據利用起來,擺脫了對精標數據的深度依賴,有望徹底解決應用場景碎片化的困擾。

不過,“大模型”在落地過程中的痛點也很直接。

隨著“大模型”越變越大,對計算和存儲成本的消耗自然也越來越大;當大模型訓練好去使用時,模型太“大”會讓推理過程變得十分緩慢;倘若只是調整大模型中的一些參數,下游任務的適配也是一件復雜的事。所以現階段很多科研機構只是在訓練大模型,應用卻處于非常低的水平。

但文心大模型讓外界看到了另一種可能:

某大型保險公司基于文心大模型中的文心ERNIE大模型的能力,實現了對保險合同中條款文本的自動解析識別,可以智能提取39個維度的關鍵信息,工作效率提升了30倍;化合物表征大模型文心HELIX-GEM被應用于醫藥研發,可以一次性預測50多種藥物代謝動力學相關的指標,且綜合效果超過其他機器學習方法4%以上;基于文心ERNIE的搜索召回和排序大模型上線后,為百度的搜索召回模塊帶來了3.96%的效果提升,排序模塊帶來了6.00%的效果提升……

02 業界首發行業大模型

對于文心大模型在“實用性”方面遠超同類產品的秘密,飛槳在Wave Summit 2022深度學習開發者峰會上公布了答案。

按照百度集團副總裁、深度學習技術及應用國家工程研究中心副主任吳甜的說法,大模型技術與真實場景需求的有效匹配是落地要解決的關鍵問題,并給出支撐大模型產業落地的三個關鍵路徑:建設更適配場景需求的大模型體系,提供全流程支持應用落地的工具和方法,營造激發創新的開放生態。

大模型體系涵蓋基礎大模型、任務大模型和行業大模型。飛槳在Wave Summit 2022深度學習開發者峰會上一口氣發布了10個大模型,再次刷新了文心全景圖,模型體系格局初現。

其中的焦點莫過于業內首發的行業大模型,核心特色是“行業知識增強”,即基于通用數據訓練的文心大模型,加上挖掘行業應用場景中,大量存在的行業特有大數據和知識,進一步提升大模型對行業應用的適配性。

在能源電力行業,百度和國家電網探索出了行業大模型機制。基于通用的文心大模型,百度在海量數據中挖掘了電力行業數據,引入電力業務積累的樣本數據和特有知識,并且在訓練中結合雙方在預訓練算法和電力領域業務與算法的經驗,設計了電力領域實體判別、電力領域文檔判別等算法作為預訓練任務,讓文心大模型深入學習電力專業知識,打造出了國網-百度.文心大模型。

相似的思路被應用在金融領域,百度和浦發銀行聯合研發了金融行業大模型——浦發-百度.文心大模型。基于文心大模型進行行業數據挖掘,結合浦發場景積累的行業數據與知識,雙方技術和業務專家一起設計了針對性的財報領域判別、金融客服問答匹配等預訓練任務,讓文心大模型學習到金融行業的知識,并在浦發典型任務應用效果顯著提升。

不夸張地說,文心大模型與伙伴聯合探索出的行業大模型方法,讓大模型向行業場景走進了一大步。

工具和平臺包括多種數據預處理工具、多樣化的精調工具、高性能的部署方案、豐富的預制任務構成的大模型套件,大模型API服務和面向不同能力開發者的EasyDL和BML開發平臺。目前EasyDL和BML上有超過1萬名開發者基于文心大模型開發,創建了超過3萬個任務,應用到輸電通路巡檢、零部件瑕疵檢測、農業病蟲害識別等場景中。

同時為了進一步拉近大模型和開發者的距離,飛槳上線了基于文心大模型的旸谷大模型創意與探索社區,試圖讓用戶零距離感受文心大模型的魅力和應用創新潛力。《淮南子》一書中將“旸谷”解釋為“日出的地方”,或許也承載了百度對于大模型的寄托,大模型的價值不在于有多少量級的模型參數,在于能否讓開發者方便地將智能化能力帶到千行百業。

如果說文心大模型的三個關鍵路徑掃清了大模型的落地障礙,讓路徑得以跑通并規模化服務工業大生產的力量,還要歸功于飛槳的訓練推理一體化技術。

在訓練層面,飛槳自主研發了端到端自適應分布式架構,既包含了并行訓練策略的創新,也包含針對異構硬件的自適應并行訓練支持,打造了框架與算力、算法相結合三位一體的大模型訓練解決方案,實現了端到端的極致性能優化;在推理層面,飛槳推出了針對大模型的壓縮、推理、服務化全流程部署方案,擁有業內領先性能,并已支撐自然語言理解、對話、跨模態生成等各類大模型的在線應用。

做一個總結的話,文心大模型所考量的不單單是大模型的優良特性,還在打通規模化部署的最后一公里,讓強大的AI能力走出實驗室、走進場景中。

03 “護航”中國產業智能化

飛槳圍繞文心大模型產業級應用的探索,似乎并不讓人感到意外,甚至說是一種可以預見的必然結果。

2019年的首屆Wave Summit深度學習開發者峰會上,百度CTO王海峰博士就前瞻性地提出“深度學習正在推動人工智能進入工業大生產階段”,并確立了飛槳“源于產業實踐,服務于產業應用”的建設思路。

三年時間里,這一觀點已經在飛槳的實踐中得到驗證。百度CTO、深度學習技術及應用國家工程研究中心主任在王海峰Wave Summit 2022上介紹,在AI工業大生產階段,深度學習技術的通用性越來越強、深度學習平臺的標準化、自動化和模塊化特征越來越顯著、深度學習應用越來越廣泛且深入,已經遍地開花。

文心大模型折射出的僅僅是飛槳“護航”產業智能化的一個側面,為了降低人工智能的產業應用門檻,飛槳在技術、場景、生態上的深化遠不止于此。

比如在技術維度上,飛槳在V2.3的版本中升級了定制開發、高性能訓練、自動化壓縮、高性能推理等核心能力。

為了滿足高階開發者的深度定制開發需求,飛槳推出了高復用性算子庫,典型算子內核的代碼量降低到了行業內的領先水平;通過對通用異構參數服務器架構升級,適配新硬件代碼量從萬行減少到了千行。同時針對開發者性能調優的困難,推出了業內首個全流程性能自動調優方案,實現了關鍵環節感知硬件特性自動調優。

而在模型的推理部署方面,飛槳推出了業內首個自動化壓縮功能,通過蒸餾微調解除了對模型訓練代碼的依賴,可以自動選擇最優的壓縮方案;特別是對于多算力中心數據、算力共享的場景,飛槳推出了業內首個異構多云自適應分布式訓練架構,幫助客戶利用多個算力中心聯合訓練進行算力共享和知識共享。

比如在場景維度上,飛槳深入結合場景需要發布了訓推一體導航圖、產業模型選型工具、飛槳移動工作站,為AI應用落地提供了“快速直達目的地的智能導航”和一站式便攜方案;發布PaddleScience賽槳,促進了數據驅動和理論推演兩大科研范式的深度融合,加速前沿技術創新和應用落地;以及深度學習實踐教輔書,助力AI人才的培養。

站在開發者的視角上,飛槳在場景落地方面不可謂不貼心:可以利用訓推一體導航圖,實現開發、訓練到推理部署的全流程智能導航;可以根據產業模型選型工具的推薦選擇模型,配合使用產業實踐范例,照著流程實施就能進行模型落地;飛槳的產業級開源算法已經超過500個,其中被譽為“神器”的PP系列模型已經從13個增加到23個,由于PP系列模型對精度和速度的平衡做到了極致,可以省去大量的人力開發成本……

再比如飛槳大航海2.0新增了面向三個領域的共創計劃,包括飛槳產業實踐范例庫、飛槳AI for Science,以及飛槳硬件生態共創計劃。

值得一提的是,飛槳和硬件伙伴的合作也在逐漸深入。2020年“共聚”,飛槳與13家硬件伙伴聯合發起了飛槳硬件生態圈,促進AI產業鏈的適配升級;2021年“共研”,飛槳與硬件伙伴軟硬一體聯合優化,適配飛槳的芯片/IP超過30種。有理由相信,隨著飛槳與合作伙伴在廠商版飛槳框架、建設模型庫、開發課程等方面的通力合作,將更好地服務開發者。

隱藏在這些新動作背后的,恰恰是飛槳對中國產業剛需的深刻洞察,既在解決人工智能在應用時的一系列棘手問題,也為千行百業的智能化升級指明了方向,中國的產業界正在進入“普惠AI”的時代。

04 寫在最后

每一次工業革命的爆發,都離不開通用性技術的普及。

人工智能是否是第四次工業革命的通用性技術?至少在飛槳的示范下,答案已經越來越確定。無論是大模型的產業化落地,還是深度學習框架本身的朝著產業級、低門檻的持續演變,都詮釋了人工智能作為通用性技術的潛力。

飛槳的征程還在繼續,但智能化的未來已經觸手可及。


本文系作者授權數英發表,內容為作者獨立觀點,不代表數英立場。
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
本文系作者授權數英發表,內容為作者獨立觀點,不代表數英立場。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本內容為作者獨立觀點,不代表數英立場。
本文禁止轉載,侵權必究。
本文系數英原創,未經允許不得轉載。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。

    評論

    文明發言,無意義評論將很快被刪除,異常行為可能被禁言
    DIGITALING
    登錄后參與評論

    評論

    文明發言,無意義評論將很快被刪除,異常行為可能被禁言
    800

    推薦評論

    暫無評論哦,快來評論一下吧!

    全部評論(0條)

    主站蜘蛛池模板: 唐山市| 泰州市| 北海市| 郓城县| 栾川县| 长沙市| 纳雍县| 九江县| 沙雅县| 淮滨县| 墨竹工卡县| 苍山县| 梨树县| 甘洛县| 镶黄旗| 宁德市| 山阳县| 宁化县| 龙口市| 米脂县| 揭东县| 勐海县| 新丰县| 安吉县| 游戏| 大方县| 湘阴县| 阳城县| 天津市| 拉孜县| 连州市| 秦安县| 武夷山市| 宁安市| 巧家县| 崇州市| 安顺市| 罗江县| 卓尼县| 自贡市| 靖远县|