【算法】Bert預訓練源碼閱讀

時間 2019-11-05

標籤算法 bert 訓練源碼閱讀简体版

原文原文鏈接

Bert預訓練源碼

做用：句子切分，特殊符號處理。
主要類：BasicTokenizer, WordpieceTokenizer, FullTokenizergithub

BasicTokenizer.tokenize: 文本轉爲unicode, 去除特殊符號，漢字先後加空格，按空格切分單詞，去掉文本重音，按標點符號切割單詞。最後生成一個list
WordpieceTokenizer.tokenize: 長度過長的單詞標記爲UNK，複合詞切分，找不到的詞標記爲UNK
FullTokenizer：前後調用BasicTokenizer和WordpieceTokenizer

輸入：詞典，原始文本(空行分割不一樣文章，一行一句)
輸出：訓練數據
做用：生成訓練數據，句子對組合，單詞mask等
入口函數main函數

加載詞典，加載原始文本
create_training_instances
讀取原始文本文件，作unicode轉換，中文，標點，特殊符號處理，空格切分，複合詞切分。轉換爲[[[first doc first sentence],[first doc second sentence],[first doc third sentence]],[[second doc first sentence],[]],....] 這樣的結構
去除空文章，文章順序打亂
輸入的原始文本會重複使用dupe_factor次
對每一篇文章生成訓練數據create_instances_from_document
訓練語句長度限制max_seq_length，0.1的機率生成長度較小的訓練語句，增長魯棒性
句子對(A,B)隨機組合
對於一篇文章，按順序獲取n行句子，其長度總和限制爲target_seq_length,
隨機選取n行中的前m行做爲A
0.5的機率，B是n行中後面剩餘的部分；其餘狀況，B是隨機選取的其餘文章內容，開始位置是隨機的
文章中沒有使用的部分繼續組合(A, B)
添加CLS,SEP分隔符，生成句子向量
對句子對中的單詞作隨機mask (create_masked_lm_predictions), 隨機取num_to_predict個單詞作mask，0.8的機率標記爲MASK，0.1的機率標記爲原始單詞，0.1的機率標記爲隨機單詞
封裝，句子對，句子id，是否爲隨機下一句，mask的下標位置，mask對應的原始單詞ui
訓練數據序列化，存入文件。單詞轉爲id，句子長度不足的後面補0。google

BertConfig: 配置
BertModel：模型主體spa

建模主體過程：code