777精品出轨人妻国产,熟女av人妻一区二区三四区,国产精品无码中文在线av,美脚パンスト女教师在线观看

壹沓AI觀察:DALL-E——人工智能讓“達(dá)利”再世

2021新年伊始,OpenAI又在AI行業(yè)投下一枚重磅炸彈,DALL-E系統(tǒng)橫空出世,繼去年1700億參數(shù)量的GPT-3文本創(chuàng)意能力技驚四座,甚至傳出“威脅”碼農(nóng)的生計(jì)能自動(dòng)搭建Html乃至Javascript代碼的說(shuō)法,現(xiàn)在又新增了直接從文本提示“按需創(chuàng)造”風(fēng)格多樣的圖形設(shè)計(jì)之超能力,就已經(jīng)發(fā)布的DEMO圖樣來(lái)看秒殺50%的設(shè)計(jì)行業(yè)打工人應(yīng)該是沒(méi)有問(wèn)題的,而且是質(zhì)量和速度雙重意義上的“秒殺”。

DALL-E系統(tǒng)根據(jù)文字““牛油果型的扶手椅”自動(dòng)創(chuàng)作的部分圖像

那么,DALL-E的誕生會(huì)讓設(shè)計(jì)師面臨下崗的風(fēng)險(xiǎn)么?

  • 壹沓科技的回答:并不會(huì),而且DALL-E類(lèi)似系統(tǒng)的發(fā)展會(huì)大大加速設(shè)計(jì)師、藝術(shù)家的創(chuàng)作過(guò)程,幫助專(zhuān)業(yè)人士多快好省地交付成果,正如壹沓科技的愿景——AI會(huì)將人類(lèi)從既有的低層次簡(jiǎn)單勞動(dòng)中徹底解放出來(lái),讓我們的時(shí)間可以更多地傾注在真正有創(chuàng)造性和意義的事情中去。

  • 壹沓科技的人工智能團(tuán)隊(duì)也正加入Google Bert與OpenAI GPT這樣的業(yè)界潮流,著力在海量互聯(lián)網(wǎng)大數(shù)據(jù)文本挖掘基礎(chǔ)上的通用模型研究。同時(shí),在面向軟件機(jī)器人業(yè)務(wù)體系的過(guò)程中也高度重視大規(guī)模領(lǐng)域數(shù)據(jù)的無(wú)監(jiān)督學(xué)習(xí),無(wú)論是在新詞挖掘,詞對(duì)發(fā)現(xiàn),還是情感短語(yǔ)評(píng)價(jià)方面均已取得領(lǐng)先行業(yè)的水平;而CV和NLP的模型融合,通過(guò)NLP糾正及增強(qiáng)OCR結(jié)果也已經(jīng)在實(shí)際業(yè)務(wù)場(chǎng)景顯現(xiàn)出令人印象深刻的效果。在2021年,我們將進(jìn)一步加大投入,開(kāi)展前沿研究,通過(guò)圖像識(shí)別對(duì)接用戶(hù)界面操作及內(nèi)容的分析進(jìn)行用戶(hù)意圖理解,在流程自動(dòng)化與文檔智能領(lǐng)域開(kāi)拓出AI技術(shù)的一片新天地。

DALL-E究竟是什么?

  • DALL-E是OpenAI于2021年1月5日最新推出的深度學(xué)習(xí)算法模型,DALL-E含有120億參數(shù)的神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)可以直接從簡(jiǎn)單的提示文字中創(chuàng)建高質(zhì)量的既符合描述又充滿(mǎn)創(chuàng)意的合成圖像。OpenAI直言DALL-E 的名字就來(lái)源于現(xiàn)代主義藝術(shù)家大師薩爾瓦多·達(dá)利(Salvador Dalí)(諧音梗玩到飛起),同時(shí)詞型結(jié)構(gòu)上又明顯在向皮克斯(Pixar)動(dòng)畫(huà)名片 WALL-E(機(jī)器人總動(dòng)員)致敬。一語(yǔ)雙關(guān),“DALL-E”寓意這項(xiàng)工作既能夠模仿藝術(shù)大師隨性創(chuàng)作出極具想象力和奇異風(fēng)格的作品,同時(shí)作為機(jī)器學(xué)習(xí)從業(yè)人員,我們仿佛也看到了在此背后,人工智能就像可愛(ài)的WALL-E機(jī)器人從數(shù)以PB計(jì)的文山圖海的原始數(shù)據(jù)中不辭辛苦進(jìn)行計(jì)算挖掘,最終堆疊出巨大的模型,而人們則可以選擇仰望星空,面對(duì)未來(lái)。


  • 在DALL-E發(fā)布之前,OpenAI在2020年中已經(jīng)發(fā)布了一個(gè)巨大的有著1700億參數(shù)的模型GPT-3,該模型震驚了世界因?yàn)樗梢援a(chǎn)生類(lèi)似于人類(lèi)書(shū)寫(xiě)出來(lái)句子,詩(shī)歌,甚至是計(jì)算機(jī)代碼。DALL-E是GPT-3的擴(kuò)展,DALL-E 是基于transformer 的多模態(tài)機(jī)器學(xué)習(xí)模型,通過(guò)海量的圖庫(kù)和文本描述的深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),它目前已經(jīng)可以根據(jù)輸入的簡(jiǎn)單文本指示而生成符合語(yǔ)義的圖片。DALL-E產(chǎn)生圖片的方式與搜索引擎式搜索完全不同,它能夠根據(jù)輸入的文本和圖片即時(shí)“繪制”出從來(lái)未被人類(lèi)創(chuàng)作過(guò)的全新圖片。難怪很多飽受甲方凌虐的乙方設(shè)計(jì)師已經(jīng)高呼DALL-E簡(jiǎn)直就是“甲方克星、乙方福音,從此再也不用擔(dān)心甲方爸爸提需求啦”,專(zhuān)門(mén)針對(duì)愛(ài)提古怪IDEA的甲方老板,直接輸入文字分分鐘得到一打效果圖。

  • 比如輸入 a male mannequin dressed in an orange and black flannel shirt and black jeans(一個(gè)男模特穿著橙色和黑色的法蘭絨襯衫和黑色的牛仔褲),生成的圖片如下。

DALL-E如果能應(yīng)用于服裝設(shè)計(jì)行業(yè),設(shè)計(jì)師可以少死多少腦細(xì)胞,壓縮不靠譜的方案又能節(jié)省下多少布料,減少多少二氧化碳排放啊!

DALL-E還學(xué)會(huì)了什么?

  • DALL-E甚至可以在已有的圖片基礎(chǔ)上繼續(xù)按照文字想法開(kāi)展創(chuàng)作。 

文字輸入:the exact same cat on the top as a sketch on the bottom(與圖片頂部的貓完全相同的手繪草圖系統(tǒng)生成的圖片)

  • 畫(huà)家、漫畫(huà)家、藝術(shù)家應(yīng)該能從生成的圖片中受到一定啟發(fā),幫助他們收集創(chuàng)作靈感。

文字輸入:由豎琴制成的帶有豎琴紋理的蝸牛

  • DALL-E的前景看起來(lái)非常廣闊,每句話(huà)在真實(shí)世界的含義都可以被可視化成一張張栩栩如生的圖片。同樣,真實(shí)世界的知識(shí)同樣也可以被可視化表示出來(lái),DALL-E或許奠定了讓機(jī)器理解真實(shí)世界的基礎(chǔ)。

DALL-E是如何進(jìn)行計(jì)算的?

  • 為了能讓DALL-E根據(jù)文字畫(huà)圖,OpenAI的研究者們用各種“文本-圖像”對(duì)組合來(lái)訓(xùn)練DALL-E。DALL·E以單數(shù)據(jù)流的形式,一次性接收1280個(gè)字符(token),其中256個(gè)字符分配給文字,其余的1024個(gè)則分配給圖像。然后DALL-E將對(duì)這些輸入信息進(jìn)行建模,利用自注意力層的注意力遮罩,確保每一個(gè)輸入的圖像字符,都與所有輸入的文字字符關(guān)聯(lián)。之后,DALL-E就可以根據(jù)文本,通過(guò)極大似然估計(jì),逐個(gè)字符地生成圖像。它不僅從能文字中生成圖像,也可以重新生成圖像中任何一塊矩形區(qū)域。到這里,DALL-E就可以根據(jù)文本生成圖像了,但怎么判別圖像的好壞呢?也就是說(shuō)怎么對(duì)這些圖像進(jìn)行評(píng)估排名呢?

  • OpenAI引入了之前開(kāi)發(fā)的模型CLIP,CLIP(Contrastive Language-Image Pre-Training)是在各種(圖像,文本)對(duì)上訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。它可以用自然語(yǔ)言指示來(lái)預(yù)測(cè)給定圖像的最相關(guān)的文本片段,而無(wú)需直接針對(duì)任務(wù)進(jìn)行優(yōu)化,類(lèi)似于GPT-2和GTP-3的zero-shot。CLIP對(duì)生成的圖片行進(jìn)排名,就可以看到最匹配的幾個(gè)結(jié)果。

  • "我們發(fā)現(xiàn),CLIP與GPT類(lèi)似,在前期訓(xùn)練中可以學(xué)習(xí)執(zhí)行一系列廣泛的任務(wù),包括物體字符識(shí)別(OCR)、地理定位、動(dòng)作識(shí)別等。我們通過(guò)在超過(guò)30個(gè)現(xiàn)有數(shù)據(jù)集上對(duì)CLIP的zero-shot轉(zhuǎn)移性能進(jìn)行基準(zhǔn)測(cè)試來(lái)衡量,發(fā)現(xiàn)它可以與之前的特定任務(wù)監(jiān)督模型相媲美。"12位OpenAI合作者關(guān)于該模型的論文中寫(xiě)道。

DALL-E的誕生對(duì)AI產(chǎn)業(yè)意味著什么?

圖文結(jié)合的多模態(tài)學(xué)習(xí)大勢(shì)所趨

  • OpenAI先后發(fā)布了兩個(gè)重量級(jí)模型CLIP(Connecting Text and Images)和 DALL-E,這兩個(gè)模型體現(xiàn)了深度學(xué)習(xí)、機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)趨勢(shì)——多模態(tài)融合。越來(lái)越多的研究者關(guān)注到多模態(tài)的研究中,比如文檔和語(yǔ)言的結(jié)合任務(wù)有表單理解、表單識(shí)別,代表模型是微軟LayoutLM。又比如說(shuō)視頻和語(yǔ)言的結(jié)合,相關(guān)的任務(wù)有視頻理解、圖文/視頻搜索,以及生成文字描述任務(wù)中有不錯(cuò)的前景。

  • 研究人員希望這項(xiàng)工作能夠激勵(lì)未來(lái)對(duì)此類(lèi)模型的能力、缺點(diǎn)和偏見(jiàn)的表征進(jìn)行研究,以便加速這一領(lǐng)域的發(fā)展。OpenAI首席科學(xué)家Ilya Sutskever最近也表示,多模態(tài)模型將在2021年成為機(jī)器學(xué)習(xí)的主要趨勢(shì)。而谷歌AI負(fù)責(zé)人Jeff Dean也在2020年做出了類(lèi)似的預(yù)測(cè)。

無(wú)監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)方興未艾

  • NLP(自然語(yǔ)言處理技術(shù)) 經(jīng)歷了第一代的基于規(guī)則的 NLP;第二代的基于統(tǒng)計(jì)的 NLP;五年前進(jìn)入到基于神經(jīng)網(wǎng)絡(luò)的第三代 NLP(NN-NLP),在大數(shù)據(jù)、大模型、神經(jīng)網(wǎng)絡(luò)框架下取得了很好的進(jìn)展,形成了一整套的技術(shù)。而現(xiàn)在更進(jìn)一步,在海量數(shù)據(jù)訓(xùn)練的基礎(chǔ)上將無(wú)監(jiān)督學(xué)習(xí)與圖像融合的結(jié)果,又讓我們感到眼前一亮。

  • 當(dāng)然,面向真正可以落地的人工智能,目前仍然有很多困難標(biāo)注數(shù)據(jù)的稀缺和昂貴就是難題之一。CV(計(jì)算機(jī)視覺(jué))和NLP一樣,都面對(duì)著標(biāo)注信息的不足的問(wèn)題,人工輸入的標(biāo)簽已經(jīng)不能更優(yōu)指導(dǎo)學(xué)習(xí)過(guò)程,越來(lái)越多的基于DL的機(jī)器視覺(jué)已經(jīng)到了足以質(zhì)疑人工標(biāo)簽的程度,這些標(biāo)簽的價(jià)值也即將被榨干;因?yàn)槿斯?biāo)注永遠(yuǎn)無(wú)法模擬人腦的推理過(guò)程,僅能提供一些間接、局部有效的信息。我們知道無(wú)標(biāo)簽數(shù)據(jù)的增長(zhǎng)是超線(xiàn)性(甚至指數(shù)級(jí))的,但是受到人力成本約束,有標(biāo)簽的訓(xùn)練數(shù)據(jù)的增長(zhǎng)只能是線(xiàn)性的。這也就意味著,隨著時(shí)間的推移,將來(lái)的學(xué)習(xí)算法必然會(huì)面臨無(wú)標(biāo)簽數(shù)據(jù)遠(yuǎn)多于有標(biāo)簽數(shù)據(jù)的情況。

  • 圖靈獎(jiǎng)得主深度學(xué)習(xí)先驅(qū)Hilton 也曾經(jīng)說(shuō)過(guò): “未來(lái)AI系統(tǒng)主要是無(wú)監(jiān)督的;無(wú)監(jiān)督學(xué)習(xí)可以從未標(biāo)記、未分類(lèi)的測(cè)試數(shù)據(jù)中提取知識(shí)——在學(xué)習(xí)共性和對(duì)共性是否存在做出反應(yīng)的能力方面,無(wú)監(jiān)督學(xué)習(xí)的能力幾乎達(dá)到人類(lèi)水平。比如在人類(lèi)視覺(jué)皮層尋找啟發(fā):人類(lèi)的視覺(jué)采用一種重建的方法來(lái)學(xué)習(xí),事實(shí)證明,機(jī)器視覺(jué)系統(tǒng)中的重建技術(shù)增強(qiáng)了它們抵抗對(duì)抗性攻擊的能力。然而,如果你采用一個(gè)擁有數(shù)十億參數(shù)的系統(tǒng),對(duì)某個(gè)目標(biāo)函數(shù)執(zhí)行隨機(jī)梯度下降,它的效果會(huì)比你想象的好得多,規(guī)模越大,效果越好。這讓一種說(shuō)法變得更合理:即大腦計(jì)算某些目標(biāo)函數(shù)的梯度,并根據(jù)梯度更新神經(jīng)突觸的強(qiáng)度。我們只需要弄清楚它是如何得到梯度的,以及目標(biāo)函數(shù)是什么。”

關(guān)于壹沓科技

壹沓科技成立于2016年11月,聚焦于前沿技術(shù)在企業(yè)數(shù)字化中的應(yīng)用,公司核心業(yè)務(wù)包括壹沓數(shù)字機(jī)器人產(chǎn)品-Cube Robot和壹沓品牌方程服務(wù)-Formula DBM,已經(jīng)為多個(gè)行業(yè)數(shù)百家企業(yè)及政府提供服務(wù)。

我們?cè)谧匀徽Z(yǔ)言處理-NLP、圖像文字識(shí)別-OCR、知識(shí)圖譜-KG、大數(shù)據(jù)挖掘-Data Mining、機(jī)器人流程自動(dòng)化-RPA和業(yè)務(wù)流程重構(gòu)及管理-BPR&BPM等領(lǐng)域具備完整的自主研發(fā)能力,已獲得軟件知識(shí)產(chǎn)權(quán)數(shù)十個(gè)。

總部位于上海 ,在北京、深圳設(shè)有分公司,已獲得高新技術(shù)企業(yè)、雙軟及專(zhuān)精特新企業(yè)等專(zhuān)業(yè)認(rèn)證 。核心團(tuán)隊(duì)來(lái)自于多家知名上市公司,在企業(yè)服務(wù)及互聯(lián)網(wǎng)從業(yè)超過(guò)10年,擁有大數(shù)據(jù)、云服務(wù)及人工智能領(lǐng)域的豐富經(jīng)驗(yàn)。

本文系作者授權(quán)數(shù)英發(fā)表,內(nèi)容為作者獨(dú)立觀點(diǎn),不代表數(shù)英立場(chǎng)。
轉(zhuǎn)載請(qǐng)?jiān)谖恼麻_(kāi)頭和結(jié)尾顯眼處標(biāo)注:作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。
本文系作者授權(quán)數(shù)英發(fā)表,內(nèi)容為作者獨(dú)立觀點(diǎn),不代表數(shù)英立場(chǎng)。
未經(jīng)授權(quán)嚴(yán)禁轉(zhuǎn)載,授權(quán)事宜請(qǐng)聯(lián)系作者本人,侵權(quán)必究。
本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表數(shù)英立場(chǎng)。
本文禁止轉(zhuǎn)載,侵權(quán)必究。
本文系數(shù)英原創(chuàng),未經(jīng)允許不得轉(zhuǎn)載。
授權(quán)事宜請(qǐng)至數(shù)英微信公眾號(hào)(ID: digitaling) 后臺(tái)授權(quán),侵權(quán)必究。

    評(píng)論

    文明發(fā)言,無(wú)意義評(píng)論將很快被刪除,異常行為可能被禁言
    DIGITALING
    登錄后參與評(píng)論

    評(píng)論

    文明發(fā)言,無(wú)意義評(píng)論將很快被刪除,異常行為可能被禁言
    800

    推薦評(píng)論

    暫無(wú)評(píng)論哦,快來(lái)評(píng)論一下吧!

    全部評(píng)論(0條)

    主站蜘蛛池模板: 蚌埠市| 潜江市| 连平县| 乐安县| 安塞县| 固始县| 漳平市| 察雅县| 滨海县| 万荣县| 阿拉善右旗| 贺州市| 津南区| 灌云县| 泸州市| 青铜峡市| 龙岩市| 汤阴县| 华容县| 通海县| 维西| 兴和县| 乌兰察布市| 镇康县| 蓬溪县| 海盐县| 遵化市| 综艺| 神农架林区| 隆子县| 黎川县| 南澳县| 巴里| 临澧县| 长治县| 界首市| 九龙县| 栖霞市| 托里县| 隆子县| 民乐县|