巴斯筆記: 自注意力機制 (self-attention mechanism)

星期日, 6月 29, 2025

自注意力機制 (self-attention mechanism) 是一種在機器學習中非常重要的技術，特別是在自然語言處理 (NLP) 領域中。它允許模型在處理序列數據（例如句子中的單詞）時，權衡序列中不同部分的相關性，從而更好地理解整個序列的語義。

簡單來說，自注意力機制讓模型在處理序列中的某一個元素時，能夠同時「看」到序列中的其他所有元素，並根據它們與當前元素的相關性給予不同的權重 (weight)。這個權重會決定每個元素對當前元素的影響程度。

想像一下，當我們閱讀一個句子時，會根據上下文來理解每個詞的意思。例如，在句子「蘋果是一種水果，蘋果公司是一家科技巨頭」中，第一個「蘋果」指的是水果，而第二個「蘋果」指的是公司。人類大腦會根據上下文來區分這兩個詞的含義。自注意力機制就是試圖在機器中模擬這種能力。

它通過計算每個元素與序列中所有其他元素的相似度來實現這一點。相似度越高，分配的權重就越大，表示該元素對當前元素的影響越重要。

自注意力機制的運作涉及三個關鍵向量：

運作步驟如下：

計算相似度分數：針對序列中的每個查詢 (Q)，與所有鍵 (K) 計算相似度分數。通常使用點積 (dot product) 來計算。這個分數衡量了查詢與每個鍵的相關性。
歸一化分數 (Softmax)：將這些相似度分數通過 Softmax 函數進行歸一化，使其總和為 1。這些歸一化後的數值就是注意力權重 (attention weights)。權重越大，表示對應的鍵越重要。
加權求和：使用這些注意力權重，對所有值 (V) 進行加權求和。這就得到了當前元素的新表示，這個新表示融合了序列中所有相關元素的信息，並根據其重要性進行了加權。

透過這三個步驟，模型能夠為序列中的每個元素生成一個新的、上下文感知的表示。

讓我們以機器翻譯為例，看看自注意力機制是如何運作的。

假設我們想將英文句子 "The animal didn't cross the street because it was too tired." 翻譯成中文。句中的 "it" 指的是什麼？是 "animal" 還是 "street"？

如果沒有自注意力機制，傳統的序列模型可能難以理解 "it" 的確切指代，因為它只會按順序處理單詞，缺乏對長距離依賴關係的洞察。

有了自注意力機制，當模型處理到單詞 "it" 時，它會執行以下操作：

查詢 (Q)：單詞 "it"。
鍵 (K)：句子中的所有其他單詞 ("The", "animal", "didn't", "cross", "the", "street", "because", "was", "too", "tired", ".")。
值 (V)：這些單詞的語義信息。

模型會計算 "it" 與所有其他單詞的相關性分數。它可能會發現：

經過 Softmax 歸一化後，"animal" 和 "tired" 會得到較高的注意力權重。最終，"it" 的新表示將會強烈地受到 "animal" 和 "tired" 這兩個詞的影響。這讓模型能夠理解 "it" 指的是 "animal"，因為動物會疲憊，而街道通常不會。

這樣，在翻譯成中文時，模型就能更準確地將 "it" 翻譯成「牠」（指動物），而不是錯誤地翻譯成「它」（指非生物）。

自注意力機制是 Transformer 模型的核心組成部分，而 Transformer 模型是當前許多先進的 NLP 模型（如 BERT、GPT 系列）的基礎。它極大地提升了模型處理長序列數據的能力，並能捕捉到序列中任意兩個位置之間的依賴關係，無論它們相距多遠。