https://www.facebook.com/219981/posts/10108344647825663/?rdid=yFKO93IzVjea5NJp#
這篇文章的重點是將「哈布斯堡王朝」因近親通婚導致的基因衰敗,比喻為當前 AI 發展面臨的「模型崩潰」危機。
以下是文章的重點摘要:
核心比喻:哈布斯堡的詛咒
哈布斯堡王朝為了鞏固權力而長期「近親通婚」,導致有害基因不斷累積(如「哈布斯堡下巴」),最終因喪失「基因多樣性」而走向衰敗。
AI 的當前困境:數據之牆
AI 產業正快速耗盡網路上所有可用的公開資料(預計 2026-2028 年用完)。儘管人類會產生新資料,但其「邊際效益」低,且產生速度遠不及 AI 消耗的速度。
AI 的「近親通婚」:合成數據
由於缺乏新的高質量人類資料,AI 公司被迫轉向一個高風險的解決方案:讓 AI 學習「由 AI 自己生成的資料」,這被稱為「合成數據」(Synthetic Data)。
「影印機」效應:模型崩潰 (Model Collapse)
文章將這個過程比喻為「拿影本去反覆影印」。AI 學習原始資料(原畫)時,會不自覺地「取平均值」,「平滑」掉罕見的知識(瑕疵或獨特筆觸),並「強化」主流特徵。
當下一代 AI 學習上一代 AI 生成的「影本」(合成數據)時,這個「取平均」的過程會不斷重複,形成「自我參照迴圈」(Self-Referential Loop)。
AI 衰敗的症狀
如同哈布斯堡王朝的遺傳疾病,依賴合成數據的 AI 會出現:
特徵放大與平庸化: AI 變得極度「無聊」且「可預測」(如同哈布斯堡下巴),失去創意和獨特性。
遺忘「尾部」: AI 會最先丟棄那些罕見但真實的「長尾」知識,變得越來越「無知」。
錯誤放大: 早期 AI 的小錯誤會被後代 AI 當作「真實資料」學習,導致錯誤被不斷放大。
王朝終結: 最終,模型會「忘記」現實的基本結構,輸出退化成毫無意義的胡言亂語。
結論:未來的關鍵在於「AI 基因工程」
這道「數據之牆」是 AI 發展的核心難題。未來的 AI 競賽關鍵不再是模型大小,而是誰能掌握「AI 基因工程」:
如何在合成數據時,保持最大的「基因多樣性」。
如何確保每一代訓練中,都混入一定比例「新鮮的、真實的人類血液」(新的人類資料)。
文章總結,一個封閉的、自我參照的系統(無論是王朝或 AI)最終都會走向僵化與衰敗。AI 必須持續與豐富、混亂、甚至充滿「瑕疵」的真實世界保持連結。
沒有留言:
張貼留言