技術(shù)生態(tài)異軍突起，昇思MindSpore進(jìn)入AI框架第一梯隊(duì)

原創(chuàng) 贊收藏 評(píng)論

舉報(bào) 2023-02-16

掃描,分享朋友圈

ChatGPT掀起的新一輪人工智能狂歡下，隱藏在背后的“大模型”正進(jìn)入越來越多開發(fā)者的視野。

誠如幾年前開始流行的一種說法：數(shù)據(jù)是燃料、模型是引擎、算力是加速器。ChatGPT的出現(xiàn)，恰如其分地詮釋了數(shù)據(jù)、模型和算力的“化學(xué)反應(yīng)”。而在其中扮演“橋梁”角色的，恰恰是上承應(yīng)用、下接芯片的AI框架。

正是在這樣的背景下，市場(chǎng)調(diào)研機(jī)構(gòu)Omdia通過對(duì)AI開發(fā)者進(jìn)行調(diào)研，在日前發(fā)布了《中國人工智能框架市場(chǎng)調(diào)研報(bào)告》，向外界揭示了國內(nèi)開發(fā)者對(duì)于AI框架的認(rèn)知，以及不斷變化的行業(yè)格局。

01 開發(fā)者眼中的AI框架市場(chǎng)

隨著ChatGPT的熱度越來越高，不少人坦言：“人工智能領(lǐng)域正在引發(fā)新一輪科技競(jìng)賽”，其實(shí)AI的學(xué)術(shù)競(jìng)賽在2020年前后就已經(jīng)開始。

OpenAI在這一年推出了著名的GPT-3，擁有1750億參數(shù)量；DeepMind的AlphaFold2在第14屆國際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽中奪冠；同時(shí)全球AI論文發(fā)表量逐年增長(zhǎng)，來自中國的論文比例越來越高...... 頂會(huì)論文、大模型、科學(xué)智能代表的技術(shù)生態(tài)，達(dá)到了前所未有的熱度。

同樣是在2020年，以昇思MindSpore等為代表的中國AI框架紛紛開源，開始了追趕TensorFlow、PyTorch等前輩們的追逐賽，中國AI框架的崛起和技術(shù)生態(tài)的繁榮，不可避免地出現(xiàn)了交叉。

就像Omdia在《中國人工智能框架市場(chǎng)調(diào)研報(bào)告》中給出的觀點(diǎn)：在大模型應(yīng)用的趨勢(shì)下，國內(nèi)開發(fā)者對(duì)于AI框架的認(rèn)知發(fā)生了一些微妙的變化。

比如“對(duì)于超大規(guī)模模型訓(xùn)練能力，您覺得哪個(gè)人工智能框架最好？”的問題中，36%的開發(fā)者投票給了TensorFlow/JAX，15%的開發(fā)者選擇的是PyTorch，昇思MindSpore以10%的占比排名第三。

需要說明的是，開發(fā)者的答案在某種程度上受到了認(rèn)知習(xí)慣的影響，自然而然地給“老牌框架”打了高分。譬如谷歌的TensorFlow并非原生支持大模型，通過新推出的另一個(gè)新生框架JAX作為TensorFlow的簡(jiǎn)化庫融入；PyTorch則是靠第三方并行算法庫補(bǔ)充了大模型支持能力。昇思MindSpore正依托原生支持大模型的能力快速崛起。

再比如“您認(rèn)為最適合做AI for Science項(xiàng)目的人工智能框架是？”的問答下，TensorFlow和新生框架JAX收到了45%的開發(fā)者支持，昇思MindSpore在這個(gè)問題下超過了PyTorch，以37%的支持率排名第二。

而在人工智能框架使用率的排名中，TensorFlow和PyTorch的先發(fā)優(yōu)勢(shì)依然存在，但昇思MindSpore以11%的份額進(jìn)入第一梯隊(duì)。TensorFlow早在2015年就已經(jīng)開源，PyTorch的歷史也可以追溯到2017年，昇思MindSpore比“前輩”們晚了三到五年，但表現(xiàn)出了快速趕超老牌AI框架的態(tài)勢(shì)，扮演了“挑戰(zhàn)者”的角色。

如果說Omdia的報(bào)告主要是基于開發(fā)者的認(rèn)知，可能與實(shí)際情況存在一定出入，那硬核的技術(shù)生態(tài)與行業(yè)生態(tài)的合作，則以板上釘釘?shù)臄?shù)字佐證著昇思MindSpore等中國AI框架崛起態(tài)勢(shì)：

在技術(shù)生態(tài)方面，昇思MindSpore已經(jīng)與200多所高校、科研機(jī)構(gòu)展開創(chuàng)新合作；在行業(yè)生態(tài)方面，僅在2022年獲得昇思技術(shù)認(rèn)證的企業(yè)就超過800多家，涵蓋制造、金融、電信運(yùn)營(yíng)商等國計(jì)民生行業(yè)；在開源生態(tài)方面，昇思MindSpore在Gitee AI開源項(xiàng)目綜合排名TOP1，軟件下載增速第一，總量已超過370萬……

02 昇思MindSpore越級(jí)的時(shí)與勢(shì)

一個(gè)殘酷但有現(xiàn)實(shí)意義的現(xiàn)象是，2020年AI框架市場(chǎng)還是一幅百家爭(zhēng)鳴的景象，目前卻出現(xiàn)了典型的虹吸效應(yīng)。

按照Omdia的調(diào)研數(shù)據(jù)，在中國人工智能框架的使用率方面，TensorFlow、PyTorch、昇思MindSpore和飛槳合計(jì)占了86%的市場(chǎng)份額，大多數(shù)AI框架的使用率不足1%，曾經(jīng)聲名鵲起的Caffe、CNTK等已逐漸掉出主流隊(duì)伍，只有昇思MindSpore一家逆勢(shì)進(jìn)入了AI框架的第一梯隊(duì)。

想要弄清問題的答案，昇思MindSpore可以說是最好的研究對(duì)象。過去近三年時(shí)間里，昇思MindSpore到底做對(duì)了什么？

第一個(gè)參考答案是大模型的“時(shí)”。

2021年9月的華為全聯(lián)接大會(huì)上，昇思MindSpore迭代至1.5版本，最直接的變化就是原生支持AI大模型訓(xùn)練，通過全自動(dòng)并行、可視化智能調(diào)優(yōu)等大幅提升了大模型的開發(fā)效率。

其中在大模型并行訓(xùn)練上，昇思MindSpore支持?jǐn)?shù)據(jù)并行、MoE并行、優(yōu)化器并行、多副本并行等7大并行計(jì)算能力，將訓(xùn)練千億模型的代碼量降低了80%、調(diào)優(yōu)時(shí)間下降60%；和TensorFlow、PyTorch等框架相比，昇思MindSpore是支持模型結(jié)構(gòu)最全的AI框架，包含稠密、稀疏MoE、卷積結(jié)構(gòu)、高維稀疏等。

第二個(gè)參考答案是應(yīng)用創(chuàng)新的“勢(shì)”。

2022年11月發(fā)布的2.0版本中完成了AI與HPC的融合，通過神經(jīng)網(wǎng)絡(luò)模擬的非線性擬合，讓科學(xué)家無需再解高維方程，進(jìn)一步提升了科技創(chuàng)新效率。特別是在產(chǎn)業(yè)應(yīng)用創(chuàng)新方面，昇思MindSpore構(gòu)建了流體仿真、電磁仿真、分子模擬在內(nèi)的科學(xué)計(jì)算套件，持續(xù)使能應(yīng)用創(chuàng)新。

和PyTorch的興起不謀而合，昇思MindSpore也將技術(shù)生態(tài)作為“先手棋”。印證昇思MindSpore “路線正確”的案例，絕不止Omdia的報(bào)告和開發(fā)者的認(rèn)同，還有一份沉甸甸的成績(jī)單。

衡量創(chuàng)新能力的一個(gè)重要標(biāo)準(zhǔn)正是論文數(shù)量。按照Papers with Code網(wǎng)站的統(tǒng)計(jì)數(shù)據(jù)，2022年使用昇思MindSpore的頂級(jí)會(huì)議論文已經(jīng)超過600篇，在國內(nèi)AI框架中排名第一，在全球范圍內(nèi)僅次于PyTorch。

而在大模型的創(chuàng)新中，目前國內(nèi)科研院所和高校已經(jīng)發(fā)布了10多個(gè)基于昇思MindSpore的大模型。其中紫東.太初是全球首個(gè)三模態(tài)大模型，能夠?qū)崿F(xiàn)視覺、文本、語音三個(gè)模態(tài)間的高效協(xié)同，曾在2022世界人工智能大會(huì)上斬獲“卓越人工智能引領(lǐng)者”獎(jiǎng)；東方.御風(fēng)是業(yè)界首個(gè)工業(yè)級(jí)流體仿真大模型，在進(jìn)行飛機(jī)流場(chǎng)模擬仿真時(shí)，對(duì)比傳統(tǒng)的科學(xué)計(jì)算，在精度一樣的情況下，東方.御風(fēng)的仿真時(shí)間只需要原來的1/25。

如果把人工智能產(chǎn)業(yè)生態(tài)比喻成森林的話，人工智能框架就像是森林中的土壤，尋求創(chuàng)新的開發(fā)者自然會(huì)“擇水土而居”。

03 不應(yīng)被忽視的可信AI問題

在全民“調(diào)戲”ChatGPT的風(fēng)潮中，ChatGPT有時(shí)會(huì)“一本正經(jīng)地胡說八道”，這其實(shí)暴露了存在事實(shí)性錯(cuò)誤、知識(shí)盲區(qū)和常識(shí)偏差等諸多問題。

Omdia在《中國人工智能框架市場(chǎng)調(diào)研報(bào)告》中向開發(fā)者詢問了類似的問題，最終的答案似乎超出了一些人的料想：在所有主流人工智能框架中，國內(nèi)的開發(fā)者普遍認(rèn)為TensorFlow 與昇思MindSpore 對(duì)“負(fù)責(zé)任的人工智能”提供的支持最好。

個(gè)中原因其實(shí)不難解釋。為了打消開發(fā)者擔(dān)心的安全隱私等問題，谷歌通過Model Cards等工具讓框架更加透明、更具備可解釋性，同時(shí)TensorFlow也提供了一系列支持?jǐn)?shù)據(jù)安全和隱私的功能、庫和培訓(xùn)工具。

昇思MindSpore之所以能夠在可信方面超越PyTorch，離不開對(duì)AI安全技術(shù)體系的布局，提供了涵蓋AI訓(xùn)練、AI測(cè)評(píng)、AI部署的一整套端到端的安全可信體系，包括聯(lián)邦學(xué)習(xí)、模型水印、模型加密等外界所熟知的可信機(jī)制。

比如聯(lián)邦學(xué)習(xí)是一種常見的隱私保護(hù)方式，可以在不收集數(shù)據(jù)的情況下協(xié)同進(jìn)行模型的訓(xùn)練，實(shí)現(xiàn)數(shù)據(jù)的“可用不可見”，繼而保護(hù)隱私信息。然而聯(lián)邦學(xué)習(xí)和大模型的結(jié)合也產(chǎn)生了諸多挑戰(zhàn)，涉及到計(jì)算代價(jià)、通信開銷、隱私泄露、模型安全等等，需要解決隱私保護(hù)與效率的兩難課題。

昇思MindSpore的回答是跨域可信訓(xùn)練。

以鵬城.盤古大模型為例，昇思的聯(lián)邦學(xué)習(xí)能力助力盤古超大模型協(xié)同訓(xùn)練，根據(jù)各地算力情況將大模型拆分，以AI計(jì)算中心超大算力實(shí)現(xiàn)盤古主干網(wǎng)絡(luò)的正反向訓(xùn)練，同步在銀行等計(jì)算機(jī)房做數(shù)據(jù)處理，模型Embedding、TOP層算Loss正反向訓(xùn)練，實(shí)現(xiàn)了敏感數(shù)據(jù)不出本地，并讓聯(lián)邦學(xué)習(xí)的訓(xùn)練時(shí)延降低了30%、通信和計(jì)算開銷降低了40%。

就像Omdia在報(bào)告中的評(píng)論：“負(fù)責(zé)任的人工智能”即是一套道德準(zhǔn)則，又是一套技術(shù)體系，是以安全、可靠和合乎道德的方式開發(fā)、評(píng)估、部署和規(guī)模化人工智能系統(tǒng)的方法，對(duì)人工智能的可持續(xù)發(fā)展非常重要。

大模型、科學(xué)智能等技術(shù)生態(tài)在過去三年時(shí)間里深入影響了開發(fā)者對(duì)AI框架的選擇，把時(shí)間再拉長(zhǎng)一些的話，能否在可信AI方面有所作為，能否打消開發(fā)者的疑慮，無疑將左右AI框架下一個(gè)三到五年的市場(chǎng)排位。

04 寫在最后

人工智能的星星之火能否燎原，AI框架有著不可或缺的作用。

一座城市的繁榮，不在于有多高的摩天大樓，而是無處不在的建筑群。沿循這樣的邏輯，AI框架的價(jià)值在于賦予不同的開發(fā)者“建造高樓”的能力，讓人工智能的前沿能力進(jìn)入每一個(gè)行業(yè)、每一家企業(yè)。

至少，以昇騰AI為首的中國人工智能產(chǎn)業(yè)建設(shè)者早已開始發(fā)力。

不只是昇思MindSpore在技術(shù)生態(tài)上的異軍突起，Atlas系列硬件、異構(gòu)計(jì)算架構(gòu)CANN、昇騰應(yīng)用使能MindX等軟硬件也在持續(xù)創(chuàng)新，為開發(fā)者打造了“端、邊、云”的全場(chǎng)景AI基礎(chǔ)設(shè)施，讓人工智能在千行百業(yè)不斷擴(kuò)散。

本文系作者授權(quán)數(shù)英發(fā)表，內(nèi)容為作者獨(dú)立觀點(diǎn)，不代表數(shù)英立場(chǎng)。
轉(zhuǎn)載請(qǐng)?jiān)谖恼麻_頭和結(jié)尾顯眼處標(biāo)注：作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。