BERT的前世今生

by admin · Published 2020-08-14 · Updated 2020-08-14

Transformer

Transformer來自論文: All Attention Is You Need

別人的總結資源：

谷歌官方AI博客: Transformer: A Novel Neural Network Architecture for Language Understanding
Attention機制詳解（二）——Self-Attention與Transformer谷歌軟件工程師
放棄幻想，全面擁抱Transformer：自然語言處理三大特徵抽取器（CNN/RNN/TF）比較中科院軟件所 · 自然語言處理 /搜索 10年工作經驗的博士（阿里，微博）；
Calvo的博客：Dissecting BERT Part 1: The Encoder，儘管說是解析Bert，但是因為Bert的Encoder就是Transformer，所以其實它是在解析Transformer，裏面舉的例子很好；
再然後可以進階一下，參考哈佛大學NLP研究組寫的“The Annotated Transformer. ”，代碼原理雙管齊下，講得也很清楚。
《Attention is All You Need》淺讀（簡介+代碼）這個總結的角度也很棒。

A High-Level Look

可以將輸入的語言序列轉換成另外一種序列，比如下圖的神經機器翻譯：

Transformer模型由編碼器-解碼器組合組成，解碼器負責對序列進行編碼，提取時間和空間信息，解碼器負責利用時間和空間特徵信息進行上下文預測，下圖是單個結構：

編碼器和解碼器堆棧的組合結構，在谷歌的實驗結構中採用了6個編碼器和6解碼器相對應，使模型的編碼能力和解碼能力達到一個平衡狀態（堆棧式結構）：

編碼器-解碼器的內部結構，類似seq2seq模型：

seq2seq模型：

Encoder: 由6個相同的層組成, 每層包含兩個sub-layers.第一個sub-layer就是multi-head attention layer，然後是一個簡單的全連接層。其中每個sub-layer都加了residual connection（殘差連接）和normalisation（歸一化）。

Decoder: 由6個相同的層組成，這裏的layer包含三個sub-layers, 第一個sub-layer 是masked multi-head attention layer。這裡有個特別點就是masked, 作用就是防止在訓練的時候，使用未來的輸出的單詞。比如訓練時，第一個單詞是不能參考第二個單詞的生成結果的。Masked是在點乘attention操作中加了一個mask的操作，這個操作是保證softmax操作之後不會將非法的values連到attention中，提高泛化性。

Self-Attention at a High Level

假設下面的句子就是我們需要翻譯的輸入句：

”The animal didn’t cross the street because it was too tired”

當模型處理單詞的時候，self attention層可以通過當前單詞去查看其輸入序列中的其他單詞，以此來尋找編碼這個單詞更好的線索。

Self-Attention in Detail

第一步是將輸入的嵌入詞向量通過三個不同的參數矩陣得到三個向量，分別是一個Query向量，一個Key向量和一個Value向量，參數矩陣分別為Wq，Wk，Wv，，如下圖所示：

第二步是通過當前詞的q向量與其他詞的k向量計算當前詞相對於其他詞的得分，分數採用點積進行計算，如下圖所示：

第三步和第四步是講得到的分數除以k值維數的平方根（k值維數為64，可以使訓練過程有更加穩定的梯度，這個歸一化的值是經驗所得），再通過softmax得到每個得分的標準化得分：

第五步是對當前詞所得到的標準化值對所有value向量進行加權求和得到當前詞的attention向量，這樣就使不同單詞的嵌入向量有了attention的參与，從而預測上下文句子的時候體現不同的重要的重要程度。

Matrix Calculation of Self-Attention

Attendtion向量計算的矩陣形式，通過全職矩陣進行詞向量的計算大大加快了神經網絡的速度
X矩陣中的每一行對應於輸入句子中的一個單詞。（圖中的4個方框論文中為512個）和q / k / v向量（圖中的3個方框論文中為64個）

公式中濃縮前面步驟2到5來計算self attention層的輸出。

The Beast With Many Heads

使用“Multi-headed”的機制來進一步完善self-attention層。“Multi-headed”主要通過兩個方面改善了Attention層的性能，參數組成和子空間映射：

Many Heads的優缺點：

它拓展了模型關注不同位置的能力。Multi head 的每個參數矩陣都會記錄單詞的位置信息，使原來的單個位置信息變得更加複雜。
它為attention層提供了多個“representation subspaces”。由下圖可以看到，在self attention中，我們有多個個Query / Key / Value權重矩陣（Transformer使用8個attention heads），使特徵的提取變得更加複雜，而不是作為一個整體的特徵進行，每個單獨的子空間都會進行上下文的信息融合

在8個不同的子空間進行self-attention的操作，每個單詞生成獨立的8個向量

將8個子空間生成的向量壓縮成一個大向量，每個向量的子空間矩陣能夠學習到更多細節，壓縮過程採用一個更大的參數矩陣進行，對multi-head向量進行組合，生成最終的特徵向量。

整體的框圖來表示一下計算的過程：

Representing The Order of The Sequence Using Positional Encoding

其實上面介紹的網絡裏面並沒有考慮序列的位置信息，在RNN中不同時刻的信息是通過遞歸網絡的時間t來刻畫的，有明顯的時間刻度，所以引入了位置向量來解決時間刻度問題。

為了讓模型捕捉到單詞的順序信息，添加位置編碼向量信息（POSITIONAL ENCODING），位置編碼向量不需要訓練，它有一個規則的產生方式，生成與詞嵌入向量有着相同的向量就可以。

通過構造函數sin、cos來對位置進行嵌入，pos為單詞位置信息，而i用來表達dimension 這裏為了好說明，如果2i= dmodel, PE 的函數就是sin(pos/10000)。這樣的sin, cos的函數是可以通過線性關係互相表達的，通過兩個函數對奇偶維度進行編碼。位置編碼的公式如下圖所示：

個人認為選擇正餘弦函數主要是在-1和1之間是一個對稱關係，兩個相鄰的維度編碼相差比較大，在位置上有更好的區分性，1000是序列的長度，一般盡量將取值範圍控制在四分一個周期裏面，這樣會使每一個序列的每一個維度都取唯一的值。

The Residuals

編碼器和解碼器裏面的每一層都採用殘差的思想進行訓練，目的就是為了解決網絡過深情況下的難訓練問題，殘差連接可以將目標值問題轉化成零值問題，一定程度也可以減少網絡的過擬合問題。

使用殘差連接的編碼器內部結構：

使用殘差連接的編碼器-解碼器內部結構：

The Decoder Side

通過自回歸方式進行預測，解碼器每一個時間步輸入一個單詞，然後輸出一個單詞，將預測的單詞作為下一時刻的輸入進行單詞的預測，直到預測結束。

The Final Linear and Softmax Layer

線性層是一個簡單的全連接神經網絡，模型一次生成一個輸出，我們可以假設模型從該概率分佈中選擇具有最高概率的單詞並丟棄其餘的單詞。
對於最終句子的生成有2個方法：一個是貪婪算法（greedy decoding），一個是波束搜索（beam search）。

Bidirectional Encoder Representation from Transformers

Word Embedding

線性模型，主要是對高維空間進行映射，其實是對one-hot向量的空間轉換。
通過神經網絡對輸入的詞進行映射，獲取詞向量，一般有cbow和skip-gram兩種方法，此方法訓練的詞向量與上下文無關，並沒有參考位置信息，只是對詞的有無進行參考，採用的是負採樣，預測的時候進行的是一個二分類器，模型認為只要在下文中找出正確的詞就認為是完成了任務。

尚未解決一詞多義等問題。比如多義詞Bank，有兩個常用含義，但是Word Embedding在對bank這個單詞進行編碼的時候，是區分不開這兩個含義的，因為它們儘管上下文環境中出現的單詞不同，但是在用語言模型訓練的時候，不論什麼上下文的句子經過word2vec，都是預測相同的單詞bank，而同一個單詞占的是同一行的參數空間，這導致兩種不同的上下文信息都會編碼到相同的word embedding空間里去。所以word embedding無法區分多義詞的不同語義，這就是它的一個比較嚴重的問題。

Embedding from Language Models（ELMO）

ElMO採用雙向的LSTM做上下文相關的任務，從前到后和後到前分別做一遍LSTM的encoding操作，從而獲得兩個方向的token聯繫。
Word Embedding本質上是個靜態的方式，所謂靜態指的是訓練好之後每個單詞的表達就固定住了，以後使用的時候，不論新句子上下文單詞是什麼，這個單詞的Word Embedding不會跟着上下文場景的變化而改變，所以對於比如Bank這個詞，它事先學好的Word Embedding中混合了幾種語義，在應用中來了個新句子，即使從上下文中（比如句子包含money等詞）明顯可以看出它代表的是“銀行”的含義，但是對應的Word Embedding內容也不會變，它還是混合了多種語義。

ELMO的本質思想是：

事先用語言模型學好一個單詞的Word Embedding，此時多義詞無法區分，不過這沒關係。在我實際使用Word Embedding的時候，單詞已經具備了特定的上下文了，這個時候我可以根據上下文單詞的語義去調整單詞的Word Embedding表示，這樣經過調整后的Word Embedding更能表達在這個上下文中的具體含義，自然也就解決了多義詞的問題了。所以ELMO本身是個根據當前上下文對Word Embedding動態調整的思路。

一樣的，在具體進行下游任務的時候，採用神經網絡參數微調的方法根據不同的詞的上下文環境對詞向量進行調整，從而得到同一詞的不同向量表示。

缺點：

LSTM的抽取能力遠遠落後於Transformer，主要是并行計算能力
拼接方式融合雙向特徵能力偏弱

Bidirectional Encoder Representation from Transformers

BRET採用兩階段模型，首先是語言模型預訓練；其次是使用Fine-Tuning模式解決下游任務。在預訓練階段採用了類似ELMO的雙向語言模型，雙向指的是對於預測單詞的上文和下文是否參与，如果都參与預測那麼就是雙向，雙向容易導致自己看自己的問題，後面提出mask來解決

經過預訓練的BRET模型，其已經具備了豐富的詞向量特徵信息，然後將此詞向量信息與下游任務進行組合進行NLP下游任務，例如文本生成，文本分類。

如何能夠更好將BRET模型與下游任務進行改造是一個比較複雜的問題，再好的預訓練語言模型都要與下游的任務模型相結合才有好的效果， BRET的優勢在於可以自由根據預訓練模型進行單詞級別的任務和句子級的任務。

BRET模型的創新

就是論文中指出的Masked 語言模型和Next Sentence Prediction。而Masked語言模型上面講了，本質思想其實是CBOW，但是細節方面有改進。

Masked 語言模型：

而Masked語言模型上面講了，本質思想其實是CBOW，但是細節方面有改進,掩蓋的同時，要輸出掩蓋的詞的位置，然後用真實詞來預測。

Mask LM主要是為了增加模型的魯棒性和實際性能，但是在訓練時使用mask過多會影響實際任務的表現，所以做了一些處理：隨機選擇語料中15%的單詞，把它摳掉，也就是用[Mask]掩碼代替原始單詞，然後要求模型去正確預測被摳掉的單詞。但是這裡有個問題：訓練過程大量看到[mask]標記，但是真正後面用的時候是不會有這個標記的，這會引導模型認為輸出是針對[mask]這個標記的，但是實際使用又見不到這個標記，這自然會有問題。為了避免這個問題， BRET改造了一下，15%的被選中要執行[mask]替身這項光榮任務的單詞中，只有80%真正被替換成[mask]標記，10%被狸貓換太子隨機替換成另外一個單詞，10%情況這個單詞還待在原地不做改動。這就是Masked雙向語音模型的具體做法。

Next Sentence Prediction：

指的是做語言模型預訓練的時候，分兩種情況選擇兩個句子，一種是選擇語料中真正順序相連的兩個句子；另外一種是第二個句子從語料庫中拋色子，隨機選擇一個拼到第一個句子後面。

我們要求模型除了做上述的Masked語言模型任務外，附帶再做個句子關係預測，判斷第二個句子是不是真的是第一個句子的後續句子。之所以這麼做，是考慮到很多NLP任務是句子關係判斷任務，單詞預測粒度的訓練到不了句子關係這個層級，增加這個任務有助於下游句子關係判斷任務。所以可以看到，它的預訓練是個多任務過程。這也是BRET的一個創新，一般用於句級任務。

Transformer&BERT總結

首先是兩階段模型，第一階段雙向語言模型預訓練，這裏注意要用雙向而不是單向，第二階段採用具體任務Fine-tuning或者做特徵集成；
第二是特徵抽取要用Transformer作為特徵提取器而不是RNN或者CNN；
第三，雙向語言模型可以採取CBOW的方法去做（當然我覺得這個是個細節問題，不算太關鍵，前兩個因素比較關鍵）。 BRET最大的亮點在於效果好及普適性強，幾乎所有NLP任務都可以套用BRET這種兩階段解決思路，而且效果應該會有明顯提升。可以預見的是，未來一段時間在NLP應用領域，Transformer將佔據主導地位，而且這種兩階段預訓練方法也會主導各種應用。

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※為什麼 USB CONNECTOR 是電子產業重要的元件?

※網頁設計一頭霧水該從何著手呢? 台北網頁設計公司幫您輕鬆架站!

※台北網頁設計公司全省服務真心推薦

※想知道最厲害的網頁設計公司"嚨底家"!

※新北清潔公司,居家、辦公、裝潢細清專業服務

※推薦評價好的iphone維修中心

BERT的前世今生

Transformer

A High-Level Look

Self-Attention at a High Level

Self-Attention in Detail

Matrix Calculation of Self-Attention

The Beast With Many Heads

Representing The Order of The Sequence Using Positional Encoding

The Residuals

The Decoder Side

The Final Linear and Softmax Layer

Bidirectional Encoder Representation from Transformers

Word Embedding

Embedding from Language Models（ELMO）

Bidirectional Encoder Representation from Transformers

BRET模型的創新

Transformer&BERT總結

You may also like...

近期文章

分類

彙整

BERT的前世今生

Transformer

A High-Level Look

Self-Attention at a High Level

Self-Attention in Detail

Matrix Calculation of Self-Attention

The Beast With Many Heads

Representing The Order of The Sequence Using Positional Encoding

The Residuals

The Decoder Side

The Final Linear and Softmax Layer

Bidirectional Encoder Representation from Transformers

Word Embedding

Embedding from Language Models（ELMO）

Bidirectional Encoder Representation from Transformers

BRET模型的創新

Transformer&BERT總結

You may also like...

冬至拜拜可以提早嗎？拜拜簡單流程、要準備什麼一次看

特斯拉 4680 Model Y SR AWD 通過美國 EPA 核准，可能於明年販售

【資安週報】2021年11月22日至26日

近期文章

標籤

分類

彙整