新火種AI | 谷歌Gemini抄襲百度文心一言？AI訓練數據陷入大難題

原創贊收藏評論

舉報 2023-12-19

掃描,分享朋友圈

作者：一號

編輯：小迪

谷歌過于心急，Gemini推出不到半月，就遭遇兩次“危機”。

美東時間12月6日，谷歌推出了迄今為止規模最大，能力最強的大模型Gemini。其原生多模態的能力，通過一條約6分鐘的演示視頻，展現得淋漓盡致，讓人不得不感慨它的強大，就連馬斯克都評論說，“（Gemini）令人印象深刻”。

谷歌在AI領域的成就有目共睹，盡管之前推出的Bard表現不盡人意，讓谷歌市值一夜蒸發了1000億美元。但經過一年沉淀，加上和DeepMind聯合研發，所以Gemini（雙子星）可是被寄予了厚望。

但是，Gemini發布后僅一天，就有人指控谷歌“造假”。除了在數據對比上沒有使用相同條件，演示視頻效果也是經過剪輯的。逼得谷歌不得不給出文檔承認視頻是經過加工的。

12月14日，視頻“造假”事件還沒降溫，谷歌就宣布對外免費開放Gemini Pro的API。讓不少人高興得奔走相告。因為相較于GPT-4收費版才能擁有的視覺模型，Gemini Pro可以直接給平民AI玩家體驗AI視覺能力的機會。

但就在API開放后不久，就有用戶發現，在Poe上使用Gemini Pro時，如果用簡體中文連續詢問“你好”和“你是誰”這兩個問題時，Gemini Pro會直接說出“我是百度文心大模型”這樣的回答，給網友都看“呆”了。

谷歌Gemini被百度文心一眼“奪舍”了？

微博大V闌夕就發博展示了這樣的效果，就連進一步詢問“你的創始人是誰”時，它也很干脆地回答：李彥宏。

難道Gemini被百度“奪舍”了？不少人懷疑這是因為博主在對話前面設置了提示詞，讓Gemini扮演文心一言，但這位博主強調，沒有任何前置對話。

本著求真的態度，我們也去Poe上試用了一下，結果真的可以復現。

會不會是Poe平臺上的接口用錯了？不過Poe平臺可不是什么野雞套殼網站，它是美版知乎Quora推出的AI聊天機器人平臺，你所熟知的ChatGPT、Claude等知名AI都可以在上面使用。而且如果你使用英文提問Gemini，它就會立刻恢復正常。并且單就從“作案動機”上來講，Poe也沒有必要這么做。

除此之外，還有用戶在谷歌自己的Vertex AI平臺上，使用中文對話，也出現了這種情況。因此，Poe的接口使用出錯，這個可能基本可以被排除，問題應該出在Gemini本身。

使用AI生成的數據進行訓練已不新鮮

這樣看下來，要么就是谷歌使用了百度文心一言的語料進行訓練，要么就是它所使用的語料已經被AI“污染”了。

其實大模型訓練使用其他大模型生成的語料這件事情已經不是第一次發生，并且谷歌還是有“前科”的。在上一代Bard時，谷歌就曾被曝出使用ChatGPT的數據進行訓練，并且根據The Information報道，這件事情還造成了Jacob Devlin從谷歌離職。

就在上周末，字節跳動也被OpenAI禁止使用API接口，原因也是因為說字節在使用GPT訓練自己的AI，違反了使用條例。

如果按照現在每個模型堆“訓練數據量”的操作來看，互聯網上的人類原生的數據很快就會用完，并且各個模型之間也將會很相似。因此，獲取一些未被別人拿去訓練的數據，是模型之間保持差異化的一種方法。因此，有些AI公司會向一些擁有專屬數據的公司購買數據。例如OpenAI就曾表示愿意每年支付高達八位數的費用，用以獲取彭博社自有的歷史和持續的金融文件數據訪問權限。

另一個思路，就是選擇使用AI合成的數據來進行訓練。香港大學、牛津大學和字節跳動的幾名研究院就曾嘗試過使用高質量AI合成圖片，來提升圖像分類模型的性能，結果發現效果還不錯，甚至比真實數據訓練還要好。

AI生成的內容正在“污染”互聯網

而從另一方面來看，AI生成的內容污染互聯網也是一個不得不重視的問題了。尤其是生成式AI大爆發的今年。在文字、圖像、視頻還有音頻等領域，AI生成的內容都正在“污染”互聯網上數據內容。

就在上個月，一些網友發現，在谷歌搜索上輸入已故夏威夷歌手Israel Kamakawiwo’ole的名字是，得到的搜索結果，前幾張圖片都是有AI生成的，而并非真實照片，并且這是一位以彈奏尤克里里而聞名的音樂家，但圖片里的他卻在彈吉他。

在文字方面也是，隨著百家號等媒體平臺上出現的AI幫寫等功能，AI生成的文章已經開始在互聯網上“蔓延”，這讓普通人在互聯網上篩選真實且有效的信息的效率反而降低了。可以說，AI生成內容對互聯網語料的“污染”，可能會導致產生一個新的需求，那就是幫人們分辨內容是否由AI生成的AI。

畢竟，目前訓練AI所需要的數據還是人類所生產的，在數據清洗過程中，需要注意清除一些由其他AI生成的內容。一旦互聯網上AI生成的內容越多，越能以假亂真，那么數據篩選的難度將越大。并且在大模型出現“幻覺”以及AI如何產生“智能涌現”這兩個問題沒有得到徹底解決之前，我想我們都無法做到徹底信賴AI生成的內容。

畢竟一旦AI生成了錯誤的內容，而另一個AI拿著這個內容去訓練，然后再另一個AI拿到新的錯誤內容......這樣“滾雪球”下去，AI最終會生成什么樣的逆天垃圾，我們真的無法想象。

本文系作者授權數英發表，內容為作者獨立觀點，不代表數英立場。
轉載請在文章開頭和結尾顯眼處標注：作者、出處和鏈接。不按規范轉載侵權必究。