攜手業內專家賦能AI時代--EpiK銘識協議發起開源知識運動
1月10日,2021開源數據運動線上研討會成功舉辦。EpiK邀請清華大學信息技術研究院副院長邢春曉、中國計算機學會知識圖譜SIG主席、著名知識圖譜專家王昊奮、著名數據及知識圖譜公司創始人及項目負責人王會珍等重量級嘉賓參與,該活動在人工智能及大數據領域引起廣泛關注。
此次研討會,由EpiK銘識協議發起,希望借助區塊鏈去中心化的協作模式搭建一個共建共享共益的開放知識庫。這大大迎合了當下“數據開放共享”理念和相關政策,事實上,知識圖譜的開放與互聯,對于促進數據鏈接與廣泛應用,推動人工智能、大數據發展有著不可估量的作用。
主題演講精彩紛呈 掀起一輪開源知識思想風暴
隨著萬物互聯趨勢的不斷推進,“數據開放共享”理念逐步滲透到“大數據”、“人工智能”等領域。主題演講環節,各位嘉賓紛紛就各自領域的理論和實踐經驗進行了深入論證,并對開源知識給予了高度認可。
作為在知識圖譜領域有著極深造詣的專家,王昊奮發表主題演講《開源知識圖譜如何保持實用性》指出,知識圖譜跨學科交叉、多領域協作的復雜工程,賦能 AI 領域、自然語言處理、數據庫等領域,當前各平臺都在利用知識圖譜構建屬于自己的知識圖譜。鑒于此,知識與數據開源成為了一大重要趨勢,OpenKG就是當前知名的知識圖譜開放平臺,該平臺聚集了包括高校、專業機構以及大企業的知識圖譜開發及應用經驗,這其中包含了數據集的開放、工具的開放、算法的開放。以OpenKG的新冠病毒開放知識圖譜為例,共包含百科、科研、藥物、防控、臨床、流行病學等15個開放數據集,由浙江大學、同濟大學、華為、清華大學、東南大學、IBM研究院等十余家單位共同構建。 除此之外,知識圖譜是由無數數據集來結構而成,Openbase作為OpenKG的知識圖譜眾包平臺,在這個平臺上存在著游客、審核者、驗收這等角色,分別針對數據上傳、標注及審核。
最后,他還提到,OpenKG嘗試與區塊鏈進行結合,構建可信開放的聯邦知識圖譜平臺。當前,該平臺初始節點七個,交給不同的大學和企業來獨立運營,相互的獨立,來保證多中心的基礎架構,并且是通過共識機制來做分布式帳本,共同提供可信的基礎設施。在去中心化知識圖譜建設方面,Epik銘識協議有很深的研究,現在正將推出更強大的平臺。
清華大學信息技術研究院副院長副院長、清華大學互聯網產業研究院副院長、中國計算機學會信息系統專委會副主任邢春曉在演講中指出,知識圖譜作為人工智能的重要生產力,其與區塊鏈技術的結合是支持國家數字經濟向智能經濟演進,智能經濟核心要素就是跨行業的知識融合應用的智力增值產業。提供行業的知識和決策的價值,將是智能經濟的重要一環。區塊鏈產業新模式,將推動信息互聯網向價值互聯網轉化。人類很重要的價值就是知識,因此,知識如何能夠作為跟區塊鏈相結合,能真正的做到互聯互通和互操作,體現價值的增值服務,非常重要的一個方向。
在案例解析部分,他介紹了清華自主研發的AMiner,通過構建龐大的底層科技信息知識圖譜,用來進行科技情報的挖掘,目前已包含1億學者和4億論文。另外,他還介紹了清華自研的高性能數據倉庫產品華鼎數據庫,滿足海量數據智能分析需求。最后,他還提到目前正與EpiK團隊保持著密切合作,共同推動區塊鏈+知識圖譜的開源體系,開展數據和知識融合的體系的建設,為國家的數字經濟提供重要的支持。
東北大學計算機應用專業博士、小牛思拓(北京)科技有限公司,董事長兼CEO王會珍發表主題演講《數據標注助力知識獲取》,她認為數據標注就是知識獲取的一個過程。當前,京東百度都有眾包平臺,來了一個數據任務的時候,我們就需要給標注師進行任務分配,這是傳統模式。小牛思拓團隊新的模式是一方面通過ROP技術相似任務進行分析,并給到同一批標注師,提高效率;另一方面,通過自動技術,關系抽取的方式對數據進行預處理,用模型進行預先標注,預標注的結果再扔給標注師,通過標注師的審核校正,提高標注效率。但并非標注快就是質量高,標注工作專業性要通過服務前建立合理的標注體系、在需要時提供強有力保障、對原始數據提出更好實施或建議、建立完善的標注流程等進行保障。
EpiK 團隊代表作題為《分布式知識圖譜構建》的演講,他指出,EpiK包含了知識圖譜的生產、存儲及應用的全過程,涉及領域專家、賞金獵人、知識礦工、知識用戶和數據網關這5個重要生態參與者,而EpiK的愿景是構建人類的永恒知識庫,提高 AI 的智能。
事實上,知識圖譜開放協作在2020年已萬事俱備:首先是,區塊鏈的去中心化存儲技術逐漸成熟,IPFS逐漸為業界所認可。其次是,數據標注行業也迎來了一個大的爆發,預計2025年會達到約100億的人民幣規模;再次是基于區塊鏈的去中心化也在逐漸的成熟,可以更好幫助我們解決線上的激勵動態分配。
此次,EpiK團隊還帶來了游戲化數據標注業務的一些思考,產品負責人表示,游戲的力量賦予了產品新的活力,這對于枯燥繁復的數據標注任務,無疑是重大啟發,EpiK正嘗試將游戲化引入到產品體驗中,如智能分配標注任務、游戲化場景賦予用戶故事與世界觀,隨機抽卡+成長激勵體系,賦予產品游戲化體驗等。
圓桌論壇眾嘉賓各抒己見 開啟知識開源前瞻
大會進入圓桌論壇,由上海立信會計金融學院國際經貿學院常任教師,科研能力養成社群聯合創始人莊育婷、Center for Safe AGI創始人、University AI 創始人兼首席科學家朱小虎、Center for Safe AGI創始人、University AI創始人兼首席科學家劉吉、EpiK銘識協議中國區負責人姚翔四位嘉賓分別進行了以《開源知識與數據展望》為議題的圓桌對話。
莊育婷指出,個人非常希望真正可以看到人類知識有一天能夠完成共享以及免費,知識圖譜本身是具有一定系統性的事情。今年將針對中華臉譜計劃提出一些更細致的布局,希望打造的是一個共益的中臺,會牽涉到很多的利益相關者,實現從公益到共益的目標,讓參與者在貢獻能量的同時,也能從精神上或其他方面有所收獲,提倡超越波特的“共享價值”。而這個理念跟EpiK共建共享理念其實是相吻合的,所以期待之后能夠跟EpiK一起做一些事情,去為人類進步貢獻星星之火。
朱小虎表示,在近幾年的學習研究中發現算法有的時候會出現一些不曾預想的行為,比如大家很關心的這種所謂AI的安全性問題。這里面核心問題是如何讓Alignment的行為跟人類的行為保持一致,這也是一種元安全的思想,也就是從原理上去保證這個方法本身的合理性和功能性。當然,曾考慮比如說用知識圖譜來作為一個基礎去把整個散落在各處的這種理念和技術、術語等等匯集起來,以這個為基礎去推動所謂的安全的通用人工智能的研究。相信后期將與EpiK會有一些類似合作,比如法律、人才教育等方面的探索。
劉吉表示,不管在數據統計還是在感知智能之前,其實是基于數據來驅動的。我們現在可能是要做數據統計加知識推理做認知智能這塊,所以涉及到很多知識圖譜的建設。但是知識圖譜其實它是一個很復雜的工程,它不僅僅是說一個場景化就能解決大面積問題。當前正在構想是一種基于泛標注的處理方式,利用人基本的決策能力構建一套可以快速簡潔、可敏捷協作、系統化、可持續、可拓展的AI數據管道系統,這也是在標注3.0階段要重點去做的一件事情。
姚翔最后表示,選擇知識圖譜這個賽道,是因為人工智能馬上要進入下半場,在這個角逐中,知識圖譜成為關鍵因素。而知識圖譜的開源將大大降低了數據被篡改的風險,選擇基于區塊鏈的一個可信的分布式數據共享平臺,從而來實現知識的共建共享,是大勢所趨。與此同時,在這個共建共享平臺上,數據標注的角色分工明確,且有著嚴格的付出與收益激勵,EpiK的目標就是它要不斷地優化開放式協作下的工作效率,從而來確保這個知識的質量,從而為 AI開闊視野。
此次主題活動匯聚了區塊鏈產業、高校專家學者及媒體界人士,現場各位嘉賓各抒己見,實現思想的激烈碰撞,并在開源知識與數據方面達成了一致共識,在新年伊始為人工智能發展貢獻了一場智慧盛宴,同時推動知識圖譜開放與互聯注入了創新活力。
關于EpiK Protocol銘識協議
EpiK Protocol 致力于去中心化的超大規模知識圖譜構建,通過去中心化存儲技術(IPFS)、去中心化自治組織(DAO)和通證經濟模型(Token Economy),組織并激勵全球社區成員將人類各領域知識梳理成知識圖譜,共建共享并持續更新這一人類永恒知識庫,從而將人工智能(AI)的視野拓展到更智能的未來。
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本文禁止轉載,侵權必究。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。
評論
評論
推薦評論
全部評論(1條)