777精品出轨人妻国产,熟女av人妻一区二区三四区,国产精品无码中文在线av,美脚パンスト女教师在线观看

我們用GLM-4-Plus搞了個“閱讀智能體”,工作效率提升了300%

原創(chuàng) 收藏 評論
舉報 2024-10-12

每隔一段時間,大模型行業(yè)都會傳出新的消息。

先是在9月中旬,OpenAI在沒有預告的情況下發(fā)布了o1模型的預覽版;不到半個月后,國內(nèi)的智譜發(fā)布了若干更新模型,其中就包括新的基座大模型GLM-4-Plus,也是智譜當前最強大的模型。

國外圍繞o1模型的討論和場景探索還在繼續(xù),也讓我們對GLM-4-Plus萌生了興趣:智譜的最強模型到底有多強,能夠解決哪些“懸而未決”的問題,又將帶來什么樣的影響?

01 全球前三的GLM-4-Plus,到底強在哪里

早在9月底的時候,國內(nèi)人工智能權(quán)威機構(gòu)清華大學基礎(chǔ)模型研究中心就對國內(nèi)外最具代表性的大模型進行了新一輪的綜合性測評,評測數(shù)據(jù)集包含語義、對齊、代碼、智能體、安全、數(shù)理邏輯、指令遵循等等。

按照清華大學基礎(chǔ)模型研究中心發(fā)布的SuperBench九月綜合榜單,GLM-4-Plus的綜合能力排名前三,打破了過去被國外大模型壟斷前三甲的局面,并在多個關(guān)鍵能力上保持了國際領(lǐng)先水平。

鑒于GLM-4-Plus在上線前已經(jīng)內(nèi)測了一段時間,期間有不少技術(shù)博主曾進行評測,我們關(guān)注到了三個層面的能力提升。

一是語言理解能力,通過大規(guī)模語料庫訓練和優(yōu)化算法,GLM-4-Plus在處理復雜語義上的表現(xiàn)較其他模型更加出色。

借用測評博主toyama nao的結(jié)論:在難度較高的水果熱量計算上(需要合理搭配水果,使總熱量剛好在一個區(qū)間),大部分模型并沒有真的懂題目,但GLM-4-Plus完全理解了題意,并采用逐步湊數(shù)的方法給出了正確答案,而且回答非常有“人味”,也是第一個在此題拿到滿分的模型。

二是長文本能力,GLM-4-Plus支持128K上下文,憑借創(chuàng)新的記憶機制和分段處理技術(shù),可以高效地處理大量文本信息。

我們之前曾讓支持1M上下文的GLM-4-Long扮演了“書童”的角色,兩分鐘就能“熟讀”50多萬字的《國史大綱》。GLM-4-Plus在上下文長度上沒有過于“激進”,而是基于精準的長短文本數(shù)據(jù)混合策略,取得了更強的長文本的推理效果,能夠滿足論文閱讀、文章總結(jié)等更高頻的應(yīng)用需求。

三是時序問答和多輪對話能力,從單一的圖像識別進化到對視頻、圖像的理解,并能針對單個視頻進行多輪對話問答。

在智譜的Demo中,輸入長達40秒的視頻后,GLM-4-Plus可以準確理解并感知時間,精準定位到事件發(fā)生的時刻,然后在視頻理解的基礎(chǔ)上結(jié)合上下文進行對話,比如視頻中的某個物體是在第幾秒出現(xiàn)的、一共出現(xiàn)了幾次,在智能安防、智能檢測等場景中有著不可小覷的應(yīng)用空間。

當然,以上只是我們比較感興趣的幾個能力,GLM-4-Plus的提升還體現(xiàn)在數(shù)學問題與代碼計算、數(shù)據(jù)分析任務(wù)、機器翻譯等方面,作為智譜全模型家族堅實的能力底座,堪稱“六邊形戰(zhàn)士”般的存在。

02 比性能指標有感知的,是解決問題的能力

智譜提供了GLM-4-Plus的API接口,即使不懂技術(shù)原理、不會訓練和微調(diào),也可以調(diào)用API來解決工作中的實際問題,甚至動手開發(fā)出一個“智能體”,相比性能指標上的提升,有著更直接的價值感知。

因為日常工作需要處理大量的文字資料,限于大模型的語言理解和長文本能力,一些需求尚未被滿足。于是我們在智譜的開放平臺bigmodel上調(diào)用了GLM-4-Plus,并進行了針對性的場景測試:

第一個是財務(wù)報告的閱讀和信息整理。

每次到了財報季,不少企業(yè)會公布一份長達幾十頁乃至上百頁的報告,從頭到尾閱讀報告的內(nèi)容,至少需要兩個小時的時間,而且會習慣性忽略掉一些關(guān)鍵信息,所以我們將信息的整理工作交給了GLM-4-Plus。

我們上傳了PDF文件,并輸入“總結(jié)報告中的核心信息”的指令后,GLM-4-Plus迅速給出了我們想要的信息:

其中有兩個讓我們眼前一亮的細節(jié)處理:原報告中單位是“千美元”,GLM-4-Plus在輸出的總結(jié)內(nèi)容中,自動將單位換算成了“百萬美元”;“晶圓代工”的收入和增長并未體現(xiàn)在圖表中,僅在“管理層討論與分析”的篇末提及,依舊被GLM-4-Plus精準“捕捉”。

第二個是圍繞一些細節(jié)信息的對話問答。

文檔閱讀幾乎是所有大模型主打的場景,僅僅是信息總結(jié)似乎不能證明GLM-4-Plus的能力有多強。所以我們進一步提升了難度,用一些“隱藏”在表格中的信息詢問GLM-4-Plus,驗證能否在數(shù)萬字的報告中準確回答。

比如“目前有多少研發(fā)人員,30歲以下年輕人占比”的問題:

這個問題的迷惑性在于,表格中分別列舉了2023年中和2024年中的研發(fā)人員數(shù)量,如果大模型不能準確理解上下文語義,很可能會給出2023年的數(shù)據(jù)。GLM-4-Plus的表現(xiàn)無疑可圈可點,不僅準確抓住了2024年的數(shù)據(jù),給出了表格中沒有的計算過程,而且將和問題對應(yīng)的數(shù)字進行了加黑處理。

第三個是提煉核心信息并生成視頻腳本。

除了歸納總結(jié)和信息檢索,另一個剛需場景在于內(nèi)容生成。我們嘗試讓GLM-4-Plus在報告的基礎(chǔ)上提煉核心信息并生成視頻腳本,在這個產(chǎn)品高度同質(zhì)化的賽道上,GLM-4-Plus能否給出不一樣的體驗感呢?

結(jié)果再次超出了我們的預期。

原以為GLM-4-Plus會像很多大模型一樣只是對信息進行簡單的總結(jié),最終給到的是一份90分的高分答卷,涵蓋旁白、畫面切換以及對插入圖表、數(shù)據(jù)動畫、“背景音樂選擇輕快但不喧賓奪主的風格”等貼心建議,也讓我們進一步理解了測評博主toyama nao為何會給GLM-4-Plus“有人味”的評價。

做一個總結(jié)的話,在GLM-4-Plus的幫助下,我們的工作效率至少提升了300%,考慮到智譜已經(jīng)在智譜清言上線了視頻創(chuàng)作智能體清影,30秒即可將任意文字生成視頻,讓我們對GLM-4-Plus的能力有了更多的期待:也許在不久后,只需上傳一份財報,就能自動生成視頻快訊。

03 人機交互的新范式,正被千萬開發(fā)者定義

盡管我們的需求主要集中在內(nèi)容創(chuàng)作上,但在體驗了GLM-4-Plus的能力后,腦海中產(chǎn)生了這樣一個認知:GLM-4-Plus提升的不單單是工作效率,人機交互的習慣正在朝不可逆的方向演變。

就像財報分析的過程,有別于過去逐段閱讀、邊看邊記筆記的方式,GLM-4-Plus的多輪對話能力,讓我們可以對著目錄針對性提問,對整個工作流程和效率幾乎是重塑的,一旦養(yǎng)成了習慣就不愿再重復過去的方式。

在整理素材的過程中,我們看到了GLM-4-Plus更多的應(yīng)用場景:

有人將整理的大廠面試題庫“喂”給了GLM-4-Plus,然后讓模型生成針對性的面試題目。聯(lián)想到智譜清言APP上線的“視頻通話”功能,讓AI扮演面試官的角色,進行一對一針對性訓練并非沒有可能。

也有人在挖掘GLM-4-Plus的數(shù)學問題與代碼計算能力,在大模型的幫助下一步步厘清破題思路、給出準確的代碼計算邏輯,進而幫助學生更好地分析和解答數(shù)學題,讓GLM-4-Plus充當一對一家教。

更大范圍的用戶習慣,還需要和千萬開發(fā)者一起培養(yǎng)。

比如智譜清言APP的“視頻通話”功能,當AI有了“眼睛”后,幫我們解鎖了作業(yè)輔導、產(chǎn)品介紹、游戲助手等一系列新體驗。目前智譜已經(jīng)開始內(nèi)測GLM-4-Plus-VideoCall,將“視頻通話”的魔法賦予越來越多的開發(fā)者。

以智能硬件為例,VR眼鏡、智能音箱、家教學習機等產(chǎn)品都可以集成GLM-4-Plus-VideoCall,實現(xiàn)視頻通話、語音多輪交互等跨模態(tài)能力,讓電影《Her》中的場景從科幻走進現(xiàn)實。

同樣的例子還有風頭正勁的具身智能,在工業(yè)機器人等場景中,一旦擁有了視頻分析與實時交互能力,將不再局限于程序設(shè)置的機械操作,極大提升工業(yè)機器人的自主操作能力,進一步解放生產(chǎn)力。

也就是說,GLM-4-Plus不只是“智能體”開發(fā)者的機會,還為硬件開發(fā)者提供了軟硬協(xié)同的合作空間。

把視角再放大一些的話,蘋果已經(jīng)在iPhone 16系列上搭載了一顆獨立的“相機鍵”,并在官方演示中將其定義為視覺AI的交互入口,在很大程度上預示了硬件創(chuàng)新的方向。

由此可以得出的結(jié)論是:智譜等大模型廠商已經(jīng)向硬件開發(fā)者張開了懷抱,而蘋果為首的硬件廠商正在積極迎接AI時代,一場“雙向奔赴”將是可以預見的結(jié)局。

04 寫在最后

令人興奮的,遠不止大模型的能力進階和落地場景。

智譜在更新模型的同時,還同步釋放了一波紅利:10月份將贈送每位用戶1億tokens額度,并根據(jù)消耗梯度提供最高1折的API折扣。

原因并不難解釋,GLM-4-Plus在能力提升的同時,成本也在大幅下降。大模型落地到千行萬業(yè)的最后一道障礙,正在無形中“瓦解”。等待我們的,注定是一個被大模型改寫的星光熠熠的時代。


本文系作者授權(quán)數(shù)英發(fā)表,內(nèi)容為作者獨立觀點,不代表數(shù)英立場。
轉(zhuǎn)載請在文章開頭和結(jié)尾顯眼處標注:作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。
本文系作者授權(quán)數(shù)英發(fā)表,內(nèi)容為作者獨立觀點,不代表數(shù)英立場。
未經(jīng)授權(quán)嚴禁轉(zhuǎn)載,授權(quán)事宜請聯(lián)系作者本人,侵權(quán)必究。
本內(nèi)容為作者獨立觀點,不代表數(shù)英立場。
本文禁止轉(zhuǎn)載,侵權(quán)必究。
本文系數(shù)英原創(chuàng),未經(jīng)允許不得轉(zhuǎn)載。
授權(quán)事宜請至數(shù)英微信公眾號(ID: digitaling) 后臺授權(quán),侵權(quán)必究。

    評論

    文明發(fā)言,無意義評論將很快被刪除,異常行為可能被禁言
    DIGITALING
    登錄后參與評論

    評論

    文明發(fā)言,無意義評論將很快被刪除,異常行為可能被禁言
    800

    推薦評論

    暫無評論哦,快來評論一下吧!

    全部評論(0條)

    主站蜘蛛池模板: 略阳县| 灵丘县| 安康市| 原平市| 讷河市| 康乐县| 浦东新区| 全椒县| 陆丰市| 华亭县| 交城县| 四平市| 乌海市| 赞皇县| 龙门县| 东明县| 介休市| 威远县| 麟游县| 印江| 岫岩| 冀州市| 乐平市| 广东省| 巢湖市| 喜德县| 通山县| 女性| 千阳县| 武城县| 黄冈市| 库伦旗| 文成县| 白城市| 涟水县| 上栗县| 津南区| 宝鸡市| 廉江市| 滦南县| 江门市|