DeepSeek採用的技術分析如下:
-
MLA(多層注意力架構):原始的注意力機制是每一層都有一個名字對應一個值,訓練時這個名字和值都需要逐一計算並存在記憶體中。MLA將前後幾層合併在一起,不記錄具體的名字,而是想用到的時候,再說第幾排第幾個男生是多少,這樣可以減少訓練佔用的記憶體。
-
FP8混合精度訓練框架:位數越多代表精度越高,原始的32位或16位相當於能精確到1.85。DeepSeek將精度降低,比如算你兩塊錢吧,減少計算量。為了避免誤差太大,DeepSeek並非最後才算總帳,而是每128個數字就算出結果,交給32位的會計仔細算一下。
-
Dual Pipe跨節點通信:為了優化計算的流水線,讓生產隊沒有閒著的。訓練就像前面的人擰完螺絲傳到後面貼膠布,經常發生貼膠布的人還沒擰好螺絲的情況,需要等待。Dual Pipe設計了兩條並行流水線,貼完膠布可以直接轉身到另外一條流水線,數據傳輸和計算同時進行,提高50%的效率,減少20%的通信開銷。
-
無輔助損失的負載均衡方式:MOE(混合專家模型)中有數百個專家,會出現有的專家忙,有的專家閒置的情況。無輔助損失的負載均衡相當於智能派單,如果發現某個棋手連續跑了太多單,系統會自動降低它接到新訂單的機率,把單子分給其他閒著的棋手。這種動態調整讓整個系統運轉更加順暢高效,讓不同專家的工作量動態地達到一種平衡.
-
跨節點全對全通信內核:來源沒有提到MLA多層注意力架構和跨節點全對全通信內核之間有何關聯。
-
MTP技術:傳統的大語言模型一次預測一個token,而MTP技術同時預測多個連續的token,提高效率,還更能把握token與token之間的依賴關係。
-
數據精篩:DeepSeek在訓練數據上精益求精,從挑選數據到清洗數據到數據處理全部都精細調製。
-
蒸餾:DeepSeek近日釋出6個蒸餾版的小型化版本的R1模型,參數量從1.5B、7B到70B,提供多樣的選擇,對單純希望以小搏大、追求性價比的用戶是件好事。
沒有留言:
張貼留言