NLP(文本分類思路)

時間 2019-12-11

標籤 nlp 文本分類思路简体版

原文原文鏈接

加載詞嵌入矩陣(通常狀況爲字典形式 {詞0:300維的向量, 詞1:300維的向量, 詞2:300維的向量...})
加載任務數據(通常狀況爲字符串形式 "我喜歡編程" 或者 "I love play computer")
對加載的全部任務數據求一個最大字符串長度以便後面將全部數據填充至同樣的長度
將每條數據以每一個樣本的形式存入列表 ["我在家", "他在打球", "I am tired"...]
對每一個樣本進行分詞　例如： (分詞前["我在天安門"]) (分詞後["我","在","天安門"]) #僅供參考
對每一個樣本去停用詞　例如：(去停用詞前["他", "在", "美麗", "的", "草坪", "下", "曬", "太陽"]) (去停用詞後["他", "在", "草坪", "曬", "太陽"]) #僅供參考不必定正確
對全部的詞彙彙總使用tf-idf(固然還有其它的方法不止tf-idf這一種,tf-idf具體原理本身google)對詞彙加權等等一堆東西算出前10000(根據任務本身設定詞嵌入的大小) 通常爲字典形式{詞0:0, 詞1:1, 詞2:2, 詞n:n, ...}
同時將數據轉換爲詞對應 7 步驟字典中的序號例如(["我", "在", "家"]) 轉換後可能爲([14, 383, 2015])
將 8 步驟轉換後的數據 padding 爲 3 步驟最大長度以便神經網絡收到同一長度(padding 0)
用第 1 步驟獲得的詞嵌入和第 7 步驟獲得的彙總詞彙的索引取出一個嵌入矩陣隨後對全部的訓練數據進行編碼形如 {0:300維的向量, 1:300維的向量, 2:300維的向量, ...}
最後將 10 步驟的詞嵌入矩陣加載到神經網絡的第一層(並設置爲不訓練)對全部數據進行編碼.
接着就能夠使用神經網絡對數據進行訓練並預測啦.

print_r('點個贊吧')；
var_dump('點個贊吧')；
NSLog(@"點個贊吧！")
System.out.println("點個贊吧!");
console.log("點個贊吧!");
print("點個贊吧!");
printf("點個贊吧!\n");
cout << "點個贊吧!" << endl;
Console.WriteLine("點個贊吧!");
fmt.Println("點個贊吧!")
Response.Write("點個贊吧")；
alert（’點個贊吧’）

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。