昇騰與“紫東.太初”賦能法律服務(wù),多模態(tài)大模型邁向“多專多能”
日前舉辦的華為全聯(lián)接大會2022上,中國科學(xué)院自動化研究所所長徐波在演講中提出了一個新觀點:“多模態(tài)是人工智能邁向通用化的關(guān)鍵一步。”
學(xué)術(shù)界并不缺少大模型的“搖旗者”,特別是風(fēng)頭正勁多模態(tài)大模型,不少科學(xué)家曾在公開場合背書。不過以往談及多模態(tài)的話題時,訓(xùn)練難度、算力成本常常是繞不過的痛點。倘若大模型注定只有少數(shù)企業(yè)擁有的“壟斷資源”,哪怕一次次刷新人工智能的測試成績,與“通用化”始終有著不小的距離。
為何徐波所長對多模態(tài)大模型的前景如此自信?坊間已經(jīng)出現(xiàn)了學(xué)術(shù)維度的回答,或許還有一個新的視角,即產(chǎn)業(yè)應(yīng)用側(cè)的摸索與實踐,比如40年前就嘗試使用“專家系統(tǒng)”輔助判決的法律服務(wù),正在多模態(tài)大模型的賦能下煥發(fā)出新的生機。
01 法律服務(wù)的雙向痛點
其實很多人對“人工智能”已經(jīng)不再陌生,原因并非是學(xué)術(shù)界或資本層面的沸騰,而是在產(chǎn)業(yè)深處的應(yīng)用落地。
翻開幾家人工智能企業(yè)的商業(yè)計劃書,應(yīng)用案例多半會占據(jù)相當(dāng)長的篇幅。生產(chǎn)線上的質(zhì)檢流程、工程管理中的巡檢巡查、市場需求側(cè)的數(shù)據(jù)分析,早已被人工智能滲透、改造,在效率上遠遠超出了傳統(tǒng)生產(chǎn)模式。
但這些機器“取代”人的場景,大多是不需要太多“思考”的重復(fù)性勞動,按照既定的算法規(guī)則就可以運行??煞煞?wù)偏偏是非標(biāo)準(zhǔn)化的,不同案件的案由、案情、涉及的法律條文各不相同,而且結(jié)果還有著不可預(yù)見性,尤其考驗從業(yè)者的經(jīng)驗法則、邏輯思維以及對情感的理解和處理能力。
因為有別于其他場景的行業(yè)特征,多年來普通人難以獲取優(yōu)質(zhì)的法律服務(wù)。
站在法律求助者的立場上,尋求法律服務(wù)的渠道非常單一,甚至一些人根本不知道去哪里尋求法律服務(wù)。即使找到了律師求助,由于自身缺少對法律服務(wù)方能力的判斷標(biāo)準(zhǔn)、缺少衡量法律服務(wù)費用的客觀標(biāo)準(zhǔn),整個過程就像是在“黑箱”中一樣,導(dǎo)致很多人在“踩坑”后不愿意再去找律師解決問題。
而法律服務(wù)者也有自己的苦衷,市場上缺少全面的案源渠道和高效的篩選機制,難以精準(zhǔn)匹配到目標(biāo)客戶,一旦雙方在認(rèn)知上的差異太大,不僅會產(chǎn)生過高的溝通成本,還很難讓求助者對服務(wù)感到滿意。一些基層法律服務(wù)者不得不花費大量時間重復(fù)低價值的瑣碎工作,無形中推高了法律服務(wù)的機會成本。
為了解決法律服務(wù)中的“雙向痛點”,行業(yè)內(nèi)外可謂各出機杼。
早在上世紀(jì)80年代就有人將“專家系統(tǒng)”應(yīng)用在了法律服務(wù)中,開發(fā)出了運用嚴(yán)格責(zé)任、相對疏忽和損害賠償?shù)饶P蛠碛嬎阖?zé)任案件賠償標(biāo)準(zhǔn)的法律判決輔助系統(tǒng)。等到新一輪人工智能浪潮的崛起,法律服務(wù)也是最早被賦能的場景之一,紛紛利用算法進行法規(guī)和判例的輔助檢索,試圖將法律工作者從浩如煙海的案卷中解放出來,進而能夠?qū)⒕性诟訌?fù)雜的法律推理工作中。
其中不乏一些“網(wǎng)紅”級的案例。國內(nèi)也出現(xiàn)了形形色色的法律機器人產(chǎn)品……
人工智能介入法律服務(wù)可以說是持續(xù)了幾十年的夙愿,可惜在以往的案例中,人工智能的輔助價值非常有限,并未能消除已有的種種痛點。
02 人工智能正由淺入深
所有事物的演變都有一個由淺入深的過程,人工智能對法律服務(wù)的影響也是如此,注定是從邊緣不斷向法律服務(wù)的內(nèi)核滲透。
把時間撥回到2021年7月份,基于昇騰AI的全球首個圖文音三模態(tài)預(yù)訓(xùn)練模型“紫東.太初”正式發(fā)布,在武漢人工智能計算中心的算力支持下,首次實現(xiàn)了跨模態(tài)理解與跨模態(tài)生成能力。而“紫東.太初”多模態(tài)大模型的主導(dǎo)者,正是徐波擔(dān)任所長的中國科學(xué)院自動化研究所。
5個月后的2021東湖國際人工智能高峰論壇上,中國科學(xué)院自動化研究所牽頭的“多模態(tài)人工智能產(chǎn)業(yè)聯(lián)合體”成立,試圖基于多模態(tài)科研成果來進行應(yīng)用創(chuàng)新孵化及產(chǎn)業(yè)聚合,解決一些懸而未決的長尾問題,陸續(xù)孵化出了多個行業(yè)解決方案,其中就包括武漢百智誠遠科技有限公司研發(fā)的AI法律服務(wù)產(chǎn)品“法魔方”。
基于紫東.太初三模態(tài)大模型,百智誠遠利用昇思MindSpore AI框架進行了AI法律服務(wù)的深入探索。
首先是數(shù)據(jù)的挖掘,匯聚了1.46億條司法案例、1215萬條法律法規(guī)、600億條法律新聞和1億則企業(yè)法律招投標(biāo)信息,這些海量信息里不僅有結(jié)構(gòu)化的數(shù)據(jù),也有非結(jié)構(gòu)化數(shù)據(jù)。由于“紫東.太初”多模態(tài)大模型采用了多層次多任務(wù)自監(jiān)督預(yù)訓(xùn)練的學(xué)習(xí)方式,能夠從大規(guī)模的無監(jiān)督數(shù)據(jù)中挖掘隱含的監(jiān)督信息進行訓(xùn)練,證明了多模態(tài)大模型的無限潛力。
以深度語義理解為例,輸入“周三上午,李XX在萬達停車場,偷了一輛價值5000元的電動自行車”,“紫東.太初”可以自動識別出作案時間、盜竊者、作案地點、盜竊金額、盜竊物品等有效信息,并對事件性質(zhì)、危害結(jié)果、相關(guān)司法案例等進行聯(lián)想,形成了綜合性的知識結(jié)構(gòu)。
然后是場景的匹配,通過信息感知與知識推理、行業(yè)全景知識與內(nèi)在聯(lián)系產(chǎn)生應(yīng)用知識、行業(yè)專家規(guī)則機器學(xué)習(xí)強化學(xué)習(xí)等訓(xùn)練,百智誠遠的“法魔方”沉淀出了規(guī)律發(fā)現(xiàn)、輔助決策等能力,能夠為律師律所、法院法官、咨詢機構(gòu)、企事業(yè)單位等不同場景提供法律數(shù)據(jù)、媒體資訊和咨詢等服務(wù)。
比如面向法院法官的產(chǎn)品體系中,包含了類案檢索、風(fēng)險評估、法律法規(guī)查詢、庭審大綱生成、電子卷宗整理、裁判文書生成、量刑參考等能力,人工智能不單單是替代機械性的重復(fù)勞動,逐漸延伸到了輔助決策、自主分析等深度應(yīng)用,已經(jīng)在某種程度上扮演了法律服務(wù)“智能助手”的角色。
其實在2017年前后,最高人民法院與國務(wù)院就曾出臺文件,提出建設(shè)智慧法院的需求,促進人工智能在證據(jù)收集、案例分析、法律文件閱讀與分析中的應(yīng)用,實現(xiàn)法院審判體系和審判能力智能化。
多模態(tài)大模型的落地應(yīng)用,不但填補了法律服務(wù)行業(yè)遺留多年的“坑”,也讓外界深刻認(rèn)識到了多模態(tài)的價值。
03 多模態(tài)大模型的勝利
需要回答的另一個問題在于:為何行業(yè)中存在多年的痛點,在多模態(tài)大模型的幫助下,似乎可以很輕松地解決?
先來復(fù)盤下以往算法模型的局限性:一是模型的功能單一,一個模型只能解決一個任務(wù);二是模型的訓(xùn)練依賴于大量的樣本,如果缺乏足夠的樣本支撐,訓(xùn)練也就無從談起;三是人工智能模型的泛化能力差,不能應(yīng)用于廣泛的應(yīng)用場景。
倘若不能擺脫“一專一能”的短板,人工智能的通用化很難實現(xiàn),大模型潛力的爆發(fā)也就無從談起。耗費海量的人力、物力去“煉”大模型,用于解決法律服務(wù)代表的長尾問題,無異于天方夜譚。
“紫東.太初”所瞄準(zhǔn)的,正是常規(guī)大模型的局限性:通過將圖像、文本、語音等不同模態(tài)數(shù)據(jù)實現(xiàn)跨模態(tài)的統(tǒng)一表征和學(xué)習(xí),完成了從“一專一能”到“多專多能”的跨越,不僅可以實現(xiàn)跨模態(tài)理解,還能實現(xiàn)跨模態(tài)生成,做到了理解和生成兩個最重要的認(rèn)知能力的平衡,并首次實現(xiàn)了以圖生音、以音來生圖的功能。
有了多模態(tài)大模型還不夠,想要讓千行百業(yè)里的企業(yè)可以用大模型來解決問題,還需要降低大模型的應(yīng)用門檻。為了打通大模型產(chǎn)業(yè)應(yīng)用的“最后一公里”,兩個組織在其中扮演了不可或缺的角色。
一個是前面提到的“多模態(tài)人工智能產(chǎn)業(yè)聯(lián)合體”,發(fā)布了“紫東.太初”大模型開放服務(wù)平臺,支持模型的小樣本訓(xùn)練和一鍵微調(diào),并開源了目前業(yè)界最大的中文多模態(tài)訓(xùn)練數(shù)據(jù)集“紫東.太素”。用戶先在大規(guī)模寬泛無標(biāo)注數(shù)據(jù)上進行基礎(chǔ)訓(xùn)練,再結(jié)合行業(yè)知識通過小樣本學(xué)習(xí)微調(diào),就可以滿足多種應(yīng)用任務(wù)的需要。
目前已經(jīng)有40多家企業(yè)在平臺上孵化了近60個解決方案,涵蓋智能制造、智慧城市、智慧文旅等數(shù)十個行業(yè)。
另一個是“紫東.太初”等大模型的“幕后英雄”昇騰AI,參與構(gòu)建了從規(guī)劃、開發(fā)到產(chǎn)業(yè)化的大模型全流程使能體系。
典型的例子就是昇騰AI推出的大模型開發(fā)使能平臺,簡化大模型開發(fā)到部署的全流程:在大模型的開發(fā)上,提供了高性能Transformer API封裝;在場景化適配上提供了微調(diào)套件,目前已經(jīng)應(yīng)用于“紫東.太初”大模型開放服務(wù)平臺;在推理部署階段,通過大模型部署套件提供自動的剪枝、蒸餾、量化等系列工具,可以在精度基本無損的情況下,實現(xiàn)模型十倍級壓縮比,以支持模型的輕量化部署。
做一個總結(jié)的話,“紫東.太初”多模態(tài)大模型在產(chǎn)業(yè)應(yīng)用中的“勝利”,所證明的不只是人工智能在法律服務(wù)中的潛力,也在潛移默化地改變外界對于大模型的態(tài)度,大模型絕不是什么軍備競賽,而是人工智能的研發(fā)范式和產(chǎn)業(yè)范式。
至少就目前來看,國內(nèi)對于大模型的態(tài)度正在趨于理性:中國科學(xué)技術(shù)信息研究所正在協(xié)同產(chǎn)業(yè)界共同規(guī)劃中國人工智能大模型地圖,將統(tǒng)籌中國大模型有序發(fā)展;繼智能遙感、多模態(tài)、智能流體力學(xué)等產(chǎn)業(yè)聯(lián)合體后,電磁智能、智慧育種等產(chǎn)業(yè)聯(lián)合體也在規(guī)劃中,大模型落地的新方法、新模式逐漸有了雛形......
04 寫在最后
1989年上線的科幻電影《回到未來2》曾預(yù)言:到了2015年,法律系統(tǒng)臻于完美,律師作為一種職業(yè)已經(jīng)消失。
盡管電影中的預(yù)言“落空”了,人工智能對于法律服務(wù)的改變卻是不爭的事實。百智誠遠代表的企業(yè)正在利用AI改寫法律檢索、合同審核、法律咨詢、案件預(yù)測、訴訟策略選擇等場景的運作邏輯,不斷提升法律服務(wù)行業(yè)的智能化水平。
也許多年后再來回顧法律行業(yè)的演變,AI法律服務(wù)所承載的意義還會多一個維度,即多模態(tài)大模型的崛起。
轉(zhuǎn)載請在文章開頭和結(jié)尾顯眼處標(biāo)注:作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。
未經(jīng)授權(quán)嚴(yán)禁轉(zhuǎn)載,授權(quán)事宜請聯(lián)系作者本人,侵權(quán)必究。
本文禁止轉(zhuǎn)載,侵權(quán)必究。
授權(quán)事宜請至數(shù)英微信公眾號(ID: digitaling) 后臺授權(quán),侵權(quán)必究。
評論
評論
推薦評論
暫無評論哦,快來評論一下吧!
全部評論(0條)