777精品出轨人妻国产,熟女av人妻一区二区三四区,国产精品无码中文在线av,美脚パンスト女教师在线观看

引領數據領域AI工程化落地,為什么會是云測數據?

原創 收藏 評論
舉報 2022-09-16

文|智能相對論

作者|葉遠風

2020年,Gartner發布《2021年重要戰略技術趨勢》,認為AI工程化(AI Engineering)將是“需要深挖的趨勢”,到了2021年年底,在Gartner的《2022年十二大重要戰略技術趨勢》中,AI工程化又被進一步明確為未來三到五年“企業數字業務創新的加速器”;

幾乎就在同一時期,阿里發布面向AI工程化的一體化大數據和AI產品體系“靈杰”,稱要推動“AI落地范式的升級,共同推動AI產業邁向新的增長”;

到了不久前落幕的服貿會上,人工智能數據企業云測數據發布了面向AI工程化的新一代數據解決方案,其價值設定為“高度支持企業所需數據的高效流轉、持續進行數據處理任務,提高規模化生產效率”;

而即將召開的由 LF AI & DATA 基金會主辦、關注AI領域前沿革新的 AICON 2022,將為AI工程化設置專門的分論壇……

毫無疑問,在AI加速實現場景落地的今天,“AI工程化”已經成為行業普遍的議題,被認為是AI發展必然的趨勢之一。

1.png

什么是AI工程化?

按Gartner比較官方的定義,是“使用數據處理、預訓練模型、機器學習流水線(MLOps) 等開發AI軟件的技術統稱,幫助企業更高效的利用AI創造價值”。“智能相對論”認為,AI工程化更簡單的理解,就是已經十分成熟的軟件工程將“軟件”擴展到AI后的一種針對AI開發特點的適配與進化,通過系統化、規范化、可度量地使用各種工程方法和工具,確保AI軟件能夠達到預期。

這里,可以通過數據方面的AI工程化創新來幫助直觀理解。云測數據面向AI工程化的新一代數據解決方案,通過成熟數據管理和標注平臺與企業完成系統集成+支持企業自定義預標注算法接口+人員管理及項目管理體系+安全交付軟硬件支持的方式,在保證數據隱私安全的標注環境下,高度支持企業所需數據的高效流轉、持續進行數據處理任務,從而提高規模化生產效率:

2.png

可以看到,云測數據的AI數據解決方案利用了大量工程方法和工具,在宏觀布局上表現出系統化、規范化的特點,大量細分模塊與能力也體現出AI開發工作方方面面的可度量性,最終服務于AI開發的全局,整體“一盤棋”(傳統軟件工程是“一條線”),這就是AI工程化能夠帶來的直觀感受。

而AI工程化為什么得到從權威機構、互聯網大廠到數據服務創新企業的普遍重視?這可能要從AI發展的階段性需求談起。

算法、算力、數據……AI落地現在還需要AI工程化

AI的發展有標準的算法、算力、數據三要素,在Gartner看來,任何一個行業、企業,只要有場景,有積累的數據,有算力,都可以落地AI應用。但Gartner同時指出,落地的效率、周期可能會遠超預期,其研究擺明,“只有53%的項目能夠從AI原型有效轉化為生產”。

這意味著,在當下場景落地成為主流的階段,并非只具備了精巧的算法、充沛的算力、足夠的數據就一定能夠做好AI場景應用、實現好技術的價值——正如Gartner所言,“AI 要成為企業的生產力,就必須以工程化的技術來解決模型開發、訓練、預測等全鏈路生命周期的問題。”

“智能相對論”認為,傳統的軟件工程針對“產品”,主要經歷需求分析、系統設計、代碼實現、驗證、發布以及運維的過程,瀑布式的流水線走下來,“產品”做好了發出去、做做售后就可以了。

而AI的場景落地雖然也給出的是“產品”,但其背后本質上是一系列智能化“能力”的組合。既然是能力,開發流程就與傳統軟件有較大出入,是問題抽象、數據準備、算法設計、模型訓練、模型評估與調優、模型部署的過程,在部署之后,還需要根據場景實踐不斷反饋到數據準備和算法設計上,從而讓AI的“能力”不斷接近和達到預期。

3.png

因此,傳統的軟件工程體系做法已經無法支撐AI開發的需要,必須要有新的方式來推動,AI工程化提供了專門適配AI開發的一系列方法、工具和實踐的集合,就起到了這個價值,為算力、算法和數據提供了新的利用方式,持續為場景創造價值。

這也說明,大規模落地階段,AI工程化更加被深刻需要。目前而言,市面上大體有兩種面向AI工程化的做法。

一種是AI開發框架型,也即原本就提供AI開發服務的各種深度學習框架,將服務延展而來,其優勢在于AI框架原本就是AI領域的基礎軟件,處于承上啟下的位置,提供面向AI工程化的服務“近水樓臺”。

這方面,以Google、Meta等科技巨頭為代表,國內有華為、百度等,以TensorFlow、PyTorch、MindSpore、PaddlePaddle等各自的深度學習框架為基礎,提供一系列與AI工程相關的生態技術和工具,如領域套件、模型可視化工具、調試調優工具、高級API等。

另一種是AI服務平臺型,也即過去為企業提供算力、算法、數據相關服務的企業,隨著客戶需求的發展專門提供面向AI工程化的能力。阿里的“靈杰”(算法方面)與云測數據面向AI工程化的解決方案(數據方面)都是如此。

水到渠成,面向AI工程化的數據解決方案是AI開發服務不斷成熟的結果

Gartner在《2022年十二大重要戰略技術趨勢》認為,到2025年,前10%做到AI工程化最佳實踐的企業相對于之后90%的企業,將從AI創新中得到超過3倍的價值,足見AI工程化的重要性。

所以,相關企業尋求AI工程化成為一種必要,也催生出較為廣闊的產業鏈機遇空間。

這其中,隨著云測數據推出面向AI工程化的新一代數據解決方案,在對外服務這件事上,數據領域的AI工程化步伐更快一些。在數據方面幾乎都有強烈需求的AI企業們,已經可以率先獲得整體化的服務。

但是,從云測數據此次發布的解決方案來看,數據方面的AI工程化雖然是某種程度上的藍海市場,但卻并非人人都可以參與進來提供相關的解決方案以獲取市場機會,它基于已有的AI開發實踐或服務積累,不是憑空而來,是長期的AI工程化實踐(但沒有喊出這個概念)抽離、整合而來。

以其中的平臺工具模塊為例,其解決方案有豐富的數據標注工具:

4.png

以及一個在流程和邏輯上閉環的數據流轉管理體系(通過這個體系也可以對AI工程化究竟做了什么有更直觀的印象):

5.png

這兩大內容,顯然不是一個新晉玩家所能提供的,它們都源于云測數據過去向AI企業提供通用數據集、數據標注平臺與數據管理系統等生產工具以及多年的AI訓練數據服務的行業成熟經驗。

云測數據的主要業務是面向智能駕駛、智慧城市、智能家居、智慧金融、新零售等眾多領域提供一站式AI數據處理服務,已經先后推出過“云測數據標注平臺”、“AI數據集管理系統”等面向市場的成果,其數據標注精度最高做到了99.99%,曾幫助某自動駕駛車企實現數據清洗、標注工作與原流程相比提升2倍的流轉效率。

正是因為過去實現了從“數據原料”到最后的“數據成品”全鏈條打通,做到場景數據專業化、高質量交付,有足夠的技術成熟度和標注經驗與管理流程,現在云測數據這樣的企業才能夠推出面向AI工程化的數據解決方案。

除了平臺工具模塊,實際上,云測數據的解決方案在保障數據安全模塊上的部署,也來自于這種積累——必須在數據質量和交付效率之外保證數據安全,自然就沉淀了安全管理的一套體系,現在可以拿過來整體化輸出,既提供了一套安全交付的標準,也包括多個ISO企業安全體系認證。

以安全交付標準為例,云測數據在硬件配置、網絡安全、物理安全、人員安全管理上都進行了能力設置,這些能力針對AI開發中涉及數據存儲、傳輸的方方面面,以事先體系化布局而不是事后一個個補漏的方式來規避數據安全風險,而這,就是“工程化”。

6.png

在這種做法下,數據安全的提升是顯而易見的。

最直觀的,由于云測數據所提供這套體系讓數據存儲、數據標注、數據傳遞等有統一的管理,數據的流轉等不需要經過人力環節(人力主要負責工單而不是數據本身的流轉,比如不用人力遞送數據硬盤),這使得AI開發的數據環節大大降低了對人的依賴,減少了失誤等風險發生的可能性。

更進一步看,在平臺工具、安全模塊之外,面向AI工程化的數據服務的機遇只屬于有行業經驗的企業,也促成后者能夠進行更多業務合作的探索,人員和項目管理模塊就是如此。

有關數據的AI開發工作除了技術性的內容,還離不開AI人力相關的管理,離不開項目管理,而云測數據基于其過去在數據方面的人才、項目管理經驗,在解決方案中也提供有匹配人員管理與項目管理的一套并行的體系作為支撐,包括招聘體系、業績培訓體系、領域知識培訓體系、項目管理體系、責任安全體系、績效職級管理體系等,其本質是以認知資源的共享換取商業價值,典型如,云測數據更了解數據標注人才的需要、更知道從哪里可以找到特定的人才、如何培育人才、更知道怎么管理項目。

7.png

當然,圍繞數據、作為一種根本上的To B服務,盡管有先天優勢,但云測數據面向AI工程化的數據解決方案的落地,還需要考慮對不同AI開發企業的適配,畢竟AI工程化是系統工程,牽扯面往往較廣。

這方面,通過API集成屏蔽不同企業的差異、做到廣泛適配是解決之道,還可以看到,云測數據的解決方案中就在平臺工具模塊中設置了標準協議接口、數據價值可視化、數據處理工作臺、數據權限管理等,來讓不同企業的管理體系都能快速進行對接。

AI“工業化大生產”來臨,數據領域的AI工程化與大模型率先匯流

AI工程化其價值和機遇不僅在于AI開發過程,其對大模型的促進作用也不容忽視。

從更宏觀的視野看,AI工程化的趨勢與當下AI領域的熱點大模型一樣,都是在推動AI“工業化大生產”(高效率的批量化AI落地,而不是作坊式的一個個生產),只不過一個從開發全過程出發,一個從模型本身出發。

二者碰撞到一起并非只是一種巧合,AI工程化與大模型也在實現著協同。

一方面,這體現在大模型開發本身,也即“預訓練”階段的工程化。

例如,知名NLP領域的大模型GPT-3其模型復雜度非常高,僅模型參數就高達1750億個,訓練數據量達到45TB,訓練出的模型有700GB大小。

這么復雜的工作,肯定不是有了算法、算力以及數據就能搞定的,其開發工作有31位參與者,形成了一套在數據處理、模型設計、代碼編寫、調試參數等領域各司其職的復雜工作體系來保障工作的順利推進,其本質就是AI工程化。

8.jpg

另一方面,這體現在大模型的場景調優上,也即“微調”階段的工程化。

大模型時代許多場景只要基于基礎大模型進行微調便可以產生優質的場景應用,云測數據總經理賈宇航認為,AI工程化在這個“微調”的階段將起到重要的作用,幫助更多場景應用高效、高質量交付與持續優化。

現在,隨著云測數據推出面向AI工程化的數據解決方案,以及行業內許多典型大模型開始走向應用,至少在數據領域,AI工程化與大模型的匯流已經在開始。

當然,也有預訓練階段與“微調”階段通吃的AI工程化服務做法,例如阿里的“靈杰”就宣稱既可以實現超大規模模型的構建,也可以實現垂直場景小模型“蒸餾”。

無論如何,數據領域的AI工程化與大模型匯流,共同推動AI應用加速實現更廣泛、更優質的場景落地,這其中涌現了新的商業合作機遇,但更重要的是在工程化開發與預訓練的優勢疊加下,AI將真正走入千行百業,變得更加普惠。

*本文圖片均來源于網絡

此內容為【智能相對論】原創,

僅代表個人觀點,未經授權,任何人不得以任何方式使用,包括轉載、摘編、復制或建立鏡像。

部分圖片來自網絡,且未核實版權歸屬,不作為商業用途,如有侵犯,請作者與我們聯系。

?AI產業新媒體;

?澎湃新聞科技榜單月度top5;

?文章長期“霸占”鈦媒體熱門文章排行榜TOP10;

?著有《人工智能 十萬個為什么》

?【重點關注領域】智能家電(含白電、黑電、智能手機、無人機等AIoT設備)、智能駕駛、AI+醫療、機器人、物聯網、AI+金融、AI+教育、AR/VR、云計算、開發者以及背后的芯片、算法等。


本文系作者授權數英發表,內容為作者獨立觀點,不代表數英立場。
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
本文系作者授權數英發表,內容為作者獨立觀點,不代表數英立場。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本內容為作者獨立觀點,不代表數英立場。
本文禁止轉載,侵權必究。
本文系數英原創,未經允許不得轉載。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。

    評論

    文明發言,無意義評論將很快被刪除,異常行為可能被禁言
    DIGITALING
    登錄后參與評論

    評論

    文明發言,無意義評論將很快被刪除,異常行為可能被禁言
    800

    推薦評論

    暫無評論哦,快來評論一下吧!

    全部評論(0條)

    主站蜘蛛池模板: 砀山县| 明水县| 上杭县| 商南县| 金山区| 乐至县| 芷江| 西畴县| 沾化县| 闽清县| 博乐市| 英山县| 卢湾区| 保山市| 平阴县| 微山县| 睢宁县| 曲阜市| 西和县| 保定市| 崇信县| 体育| 和政县| 蓝田县| 会宁县| 弥勒县| 绥化市| 霍城县| 竹山县| 紫阳县| 宜宾县| 巴彦县| 叙永县| 江西省| 阳泉市| 怀宁县| 内黄县| 郁南县| 加查县| 长沙县| 蓝山县|