百度NLP十年布局:翻越認知智能高山,架起通往現實世界的橋
自然語言處理(NLP)是人工智能皇冠上的一顆明珠。
這樣的說法在人工智能領域流傳許久,現實中發生的卻是這樣一幕:計算機視覺、語音識別等領域紛紛跑出了多個獨角獸,沖刺IPO的消息也時常出現。可作為“皇冠上的明珠”的NLP領域,卻難見獨角獸的影子,大多數創業者還停留在A輪或B輪融資。
NLP如何走出困局?
在NLP領域深耕十年,被稱作“中國NLP燈塔”的百度給出了切實的答案。8月25日舉行的百度大腦語言與知識技術峰會上,伴隨著一系列語言與知識產品的發布與升級,百度NLP的全景布局和鉆研了十幾年的核心技術一一亮相。
(百度CTO王海峰)
01 翻越認知智能的高山
把時間調回一個多月前的ACL 2020。
作為NLP領域最負盛名的國際頂會,ACL 2020收到了3429 篇論文投稿,其中被接收的779篇論文中有185 篇來自中國大陸,占比僅次于美國。距離2010年首次有中國科技企業的論文入選ACL,僅僅過去了10年時間。
除了論文數量的逐年增長,中國NLP學者的面孔也陸續在ACL上出現。
2013年,百度CTO王海峰成為ACL歷史上首位華人主席;2014 年,同樣來自百度的吳華出任 ACL 程序委員會主席;2015年,哈工大教育部語言語音重點實驗室主任李生教授獲得 ACL 終身成就獎;2016 年,百度的趙世奇當選 ACL 秘書長;2018年,ACL 宣布創建亞太區域分會,王海峰擔任創始主席;2020 年,百度組織了 ACL 大會上首場同聲傳譯研討會……
以百度為代表的中國力量在NLP的世界舞臺上不斷出彩,本身就是一種話語權的象征,而左右話語權的核心因素正是學術成就。
僅以百度為例,過去十年是百度NLP高速增長的十年,在NLP領域摘得了包括國家科技進步獎在內的20多個獎項,在30多項國際競賽中奪得冠軍,累計發表的學術論文超過300篇,專利申請高達2000多項。
其中最具代表性的無疑就是百度的語義理解技術與平臺文心(ERNIE)。
2019年12月,基于ERNIE 2.0改進的模型在權威榜單GLUE上首次突破90大關,超越人類基線3個點,獲得全球第一;3個月后的人工智能頂級會議AAAI 2020上,NLP預訓練領域入選論文《ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding》被選為Oral展示;2020年的世界人工智能大會上,ERNIE有了中文名字“文心”,并一舉斬獲最高獎項SAIL獎(Super AI Leader,卓越人工智能引領者)。
學術上的一系列成就,意味著百度已經站在了NLP研究的最前沿,成為中國NLP領域的領軍者,并與谷歌、微軟一道被視為“全球AI三巨頭”。
可對于百度來說,技術的價值絕不只是在象牙塔中“高光”,在NLP的學術領域走進殿堂的同時,也在循序推進應用場景中的落地。
剛剛結束的百度大腦語言與知識技術峰會上,第一個重磅產品就是在NLP核心技術基礎上延展開發的文心ERNIE——語義理解技術與平臺,針對傳統NLP定制常見的成本高、耗時長、可迭代性差等短板,文心集成了優秀的預訓練模型、全面的NLP算法集、端到端開發套件和平臺化服務,提供了一站式NLP開發與服務。
這或許就是百度給出的答案,想要推動NLP的產業應用,僅僅在學術上站在山巔還不夠,需要的是幫助整個行業翻越認知智能的高山,以低門檻、低成本、高效率的平臺優勢加速NLP的落地。
正如百度CTO王海峰所言,百度“致力于更好的與學術界、產業界攜手,推動語言與知識技術發展,進而推動人工智能技術持續進步,為產業持續升級、社會經濟高質量發展貢獻力量。”
02 走進行業應用的深處
以往在談及NLP的應用門檻時,最常見的回答有兩個:一是技術相對落后的硬傷,二是缺乏相對獨立的場景。
對于第一個問題,經過大量真實應用場景淬煉的文心ERNIE已經給出了解決方案,全面降低了NLP的定制開發成本。
(百度集團副總裁吳甜)
引用百度集團副總裁吳甜分享的一組數據:在數據標注方面,文心的語義理解能力可以降低90%的數據標注量;在算力方面,文心集成了ERNIE預訓練模型,可以節省90%的算力;在開發時長方面,傳統的開發方式需要一周的工作量,開發者在文心上僅需配置或編寫少量代碼,可以減少85%模型開發時長,進而全面降低NLP定制開發的成本。
對于第二個問題,針對NLP落地應用時的高頻場景,百度新發布或升級了一站式的場景化解決方案:
其一,面向企業文本場景的智能文檔分析平臺TextMind。
語義理解是NLP的基礎,也是應用場景最廣泛的服務。比如大多數企業的商業合同仍采用人工審核的方式,存在效率低下、漏查漏報等商業風險,TextMind基于OCR、NLP等技術,可以對20類文檔進行智能比對、解析、審核,與知識圖譜能力結合后能夠自動分析合同中隱含的法律風險。
其二,面向媒體行業進行場景升級的智能創作平臺。
百度智能創作平臺上線至今,已經自動創作了200多萬篇文章、超過15萬條短視頻、輔助創作的日均調用量超過35萬,累計落地20多家機構媒體。同時圍繞策、采、編、審的媒體工作場景,百度推出智能策劃、智能采編、智能審校三大場景方案,幫助媒體降低創作成本,提升創作效率。
其三,面向交互場景升級的智能對話定制與服務平臺UNIT。
UNIT上線以來已經服務了超過2.7萬開發者,支撐了超過10萬個智能對話應用,積累的知識條目總量達到2.4億,與用戶進行了超過4200億次交互。全新升級后的UNIT進一步降低了任務式對話、智能問答的定制成本,其中數據標注成本降低了30%以上,并且融合了新一代對話引擎以提升交互體驗。
其四,面向翻譯場景全新發布的AI同傳會議解決方案。
AI同傳并不是什么陌生的概念,百度在2017年就推出了同傳系統,衍生出了桌面助手、翻譯APP等產品。AI同傳會議解決方案主打的亮點是全場景、全流程,只需要一臺電腦和一部手機,就能迅速搭建出一套同傳服務,不僅可以隨時對專業術語進行干預,還能自動生成會議記錄。
值得一提的是,百度瞄準的四個場景分別對應了NLP領域的理解、生成、對話、翻譯,這樣的設計絕非無意之舉。
過去十年的時間里,百度語言與知識技術培養吸引了大量的全球頂尖人才,推出了以王海峰為代表的百度NLP“十年十人”。這些頂尖大牛們的技術信仰和探索精神,既向外界展示了百度的技術硬實力,也讓外界看到了百度加速NLP走向行業深處的拳拳之心。
03 產業智能的百度方案
至于百度這般賦能NLP行業的原因,可以借鑒百度CTO王海峰的觀點:“在百度語言與知識技術的布局和發展中,我們始終在注意把握兩個趨勢,即技術發展趨勢和產業發展趨勢,并力爭引領趨勢。”
對于技術趨勢的理解,可以借用這樣一個比方:感知智能是AI感知外部環境的能力,包括聽覺、視覺和觸覺,相當于人類的耳朵、眼睛和手;認知智能是AI理解、聯想、推理的能力,需要AI像人一樣思考并解決問題。
倘若AI的進化停留在感知智能,在認知智能層面停滯不前,終將無法擺脫上兩次人工智能浪潮的宿命。如何加速認知智能的越級?僅僅有仁人志士的奔走呼告還遠遠不夠,刺激一個行業走向繁榮的驅動力量還是誘人的商業前景。
某種程度上說,NLP領域并不缺少琳瑯滿目的技術,諸如語義分析、情感分析、機器翻譯、知識圖譜等層出不窮,可大多只是一個引擎或者一個特定功能上的服務。
百度所做的正是擦去蒙在“明珠”上的灰塵,然后融合新基建、產業智能化的趨勢,將自身領先的NLP能力輸出給開發者與合作伙伴,并在不斷的創新和探索中找到了NLP規模化應用的方法論:
首先是基礎技術的平臺化。NLP的算法和模型是典型的腦力勞動,結果就是在人才、資源和場景上占據優勢的巨頭們有著絕對的話語權。從百度大腦的開放,到飛槳深度學習平臺的開源,再到文心ERNIE語義理解技術與平臺的上線,本質上都是以平臺的形式對外賦能,降低整個行業的進入門檻和開發成本。
其次是核心能力的場景化。一些企業可能并不具備底層開發的能力,百度的對策是針對文本分析、對話系統、機器翻譯等高頻場景推出一體化的解決方案,開發者只需要進行簡單的配置或修改。畢竟NLP的難點在于落地時牽涉到深度學習、情感模型等等,場景化消除了不必要的開發環節和資源投入。
然后是細分應用的產品化。對于智能搜索、智能推薦、智慧城市、智慧醫療等各行各業的應用,百度的策略是與合作伙伴一道打造獨立的產品,以零門檻的形式提供服務。比如以API、插件、APP等模式對外服務的百度翻譯,目前已經支持40多萬家第三方應用,每天響應超過千億字符的翻譯請求。
除此之外,為了解決NLP在模型魯棒性、可解釋性、跨模態語義理解等方面依然面臨的挑戰,百度聯合中國計算機學會、中國中文信息學會共同發布了“千言”數據共建計劃。
同時百度技術委員會主席吳華發布了算力共享計劃,通過數據集的共建與算力的共享,繼而從語義理解、知識融合、跨模態融合等角度推動技術進步。
做一個總結的話,在NLP應用落地的話題上,百度從來都不是一成不變的守舊者,而是根據行業現狀不斷變通,通過持續性的場景落地,逐步喚醒外界對NLP的價值認可。當整個行業都在重新審視NLP的時候,距離全面爆發已不再遙遠。
04 寫在最后
曾經被問到百度NLP的理想和抱負是什么時,王海峰凝練了十二個字的回答:“理解語言,擁有智能,改變世界”。
如今再來思考這句話的內涵,無疑有了更為準確的理解。“改變世界”的夢想顯然不是算法改變世界那般狹隘,在新基建和產業智能化的浪潮下,百度已經確定了平臺型AI的定位,風光無限的NLP部門一面在學術上推動語言與知識技術發展,一面在應用上幫助開發者們破除桎梏。
十年征程,百度NLP部門不僅在造一座燈塔,還在架一道技術通往現實世界的橋。
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本文禁止轉載,侵權必究。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。
評論
評論
推薦評論
暫無評論哦,快來評論一下吧!
全部評論(0條)