使用ANNdotNET進行情感分析

2018年10月的MSDN雜誌上發表了由James McCaffrey撰寫的文章「使用CNTK的情感分析」 。在這篇博文中,我將向您介紹這篇很是好且寫得很好的MSDN文章示例。我不打算重複MSDN文章中所寫的文本,所以建議首先閱讀該文,而後返回此處並在ANNdotNET中實現該示例。事實上,我已經在不到5分鐘的時間內實施了完整的解。因爲ANNdotNET是GUI工具,所以在模型培訓和評估過程當中看到全部出色的可視化效果頗有趣。此外,ANNdotNET經過提供混淆矩陣,ROC曲線和其餘二進制性能參數來提供完整的二進制模型評估,這個示例使得閱讀更有趣和有價值。git

整個示例分五步實施。github

第1步:準備文件和文件夾結構

首先,咱們須要建立幾個文件夾和文件,以建立空的annproject。手動建立文件夾是必要的,由於ANNdotNET v1.0沒有建立Empty項目的選項。這將在下一個版本中添加。瀏覽器

首先,建立如下一組按層次排序的文件夾:網絡

  • SentimentAnalysis
    • MoveReview
      • 數據

下圖顯示了這組文件夾。dom

第2步:下載示例中使用的數據集。

咱們在MSDN文章中只須要訓練和測試數據集。能夠從MSDN示例下載數據:Code_McCaffreyTestRun1018.zip。下載zip文件後,解壓縮示例,並將文件:imdb_sparse_train_50w.txtindb_sparse_test_50w.txt複製數據文件夾,如上圖所示wordpress

第3步:建立MoviewReview.ann和LSTM-Net.mlconfig文件

  • 打開記事本並使用如下內容建立文件:
1 project:|Name:MovieReview |Type:NoRawData |MLConfigs:LSTM-Net
2 data:|RawData:MovieReview_rawdata.txt
3 parser:|RowSeparator:rn |ColumnSeparator: ; |Header:0 |SkipLines:0

將文件保存在SentimenAnalysis文件夾中做爲MovieReview.ann。下圖顯示了磁盤上保存的annproject文件。函數

 

如今再次打開記事本,建立一個新的空文件。空文件應該是mlconfig文件,其內容以下所示。不要擔憂文件的內容,由於一旦咱們用ANNdotNET打開它,全部這些細節都將可見。若是您想了解更多有關mlconfig文件結構的信息,請參閱ANNdotNET項目的這個wiki頁面工具

1 configid:msdn-oct-2018-issue-sentiment-analysis-article
2 metadata:|Column02:y;Category;Label;Random;0;1
3 features:|x 129892 1
4 labels:|y 2 0
5 network:|Layer:Embedding 50 0 0 None 0 0 |Layer:LSTM 25 25 0 TanH 1 1 |Layer:Dense 2 0 0 Softmax 0 0
6 learning:|Type:AdamLearner |LRate:0.01 |Momentum:0.85 |Loss:CrossEntropyWithSoftmax |Eval:ClassificationAccuracy |L1:0 |L2:0
7 training:|Type:Default |BatchSize:250 |Epochs:400 |Normalization:0 |RandomizeBatch:0 |SaveWhileTraining:0 |FullTrainingSetEval:1 |ProgressFrequency:1 |ContinueTraining:0 |TrainedModel:
8 paths:|Training:data\imdb_sparse_train_50w.txt |Validation:data\imdb_sparse_test_50w.txt |Test:data\imdb_sparse_test_50w.txt |TempModels:temp_models |Models:models |Result:LSTM-Net_result.csv |Logs:log

該文件應使用LSTM-Net.mlconfig文件名保存在MovieReview文件夾中下圖顯示了mlconfig文件的存儲位置。性能

步驟4.使用ANNdotNET GUI工具打開annproject文件

如今咱們已經設置了全部內容,以便用ANNdotNET打開和訓練情緒分析示例。因爲ANNdotNET實現MLEngine其基於CNTK,數據集是兼容的,而且能夠由訓練者讀取。爲了得到更好的結果,咱們稍微改變了學習參數。咱們使用AdamLearner代替SGD。學習

若是您的計算機上沒有安裝ANNdotNET工具,只需轉到發佈部分並下載最新版本。或者克隆GitHub存儲庫並在Visual Studio中運行它。有關如何將ANNdotNET做爲獨立應用程序或Visual Studio解決方案運行的全部信息,請訪問GitHub頁面https://github.com/bhrnjica/anndotnet

在機器上簡單解壓縮ANNdotNET的二進制文件後,只需選擇anndotnet.wnd.exe文件便可運行它ANNdotNET運行後,單擊「打開應用程序」命令並選擇MoveReview.ann文件。在一秒鐘內,應用程序使用相應的mlconfig文件加載項目。從項目瀏覽器中,單擊LSTM-NET三項,並出現與下圖類似的內容。

咱們寫入mlconfig文件的全部內容如今都顯示在網絡設置標籤頁中。

  1. 輸入圖層,尺寸爲129892
  2. 具備二維的輸出層(二進制問題)
  3. 學習參數:
    1. AdamLearner,動量爲0.01 lr和0.85,
    2. 損失函數是CrossEntropywithSoftmax
    3. 評估功能是ClassificationAccuracy
  4. NNetwork Designer顯示典型的LSTM循環網絡

步驟5.示例的訓練和評估

如今咱們檢查了網絡設置,咱們能夠切換到列車標籤頁,並查看培訓參數。因爲咱們已經在mlconfig文件中設置了訓練參數,所以咱們無需進行任何更改。

單擊「運行應用程序」命令啓動培訓過程。一段時間後,咱們應該看到如下結果:

若是咱們切換到評估頁面,咱們能夠執行一些統計分析,以評估模型是否良好。顯示評估選項卡頁面後,單擊「刷新」按鈕以根據培訓和驗證數據評估模型。

左側統計數據用於訓練數據集,左側用於驗證數據集。能夠看出,該模型完美地預測了來自訓練數據集的全部數據,而且大約70%的準確度描述了驗證數據集。關閉cource,模型並不像咱們預期的那樣好,可是這個演示已經足夠了。還有兩個按鈕能夠顯示ROC曲線,以及其餘二進制性能參數,這兩個數據集都是讀者的口味。

這是完成情感分析例程設置和運行所需的所有內容。若是您想要完整的ANNdotNET項目,能夠從這裏下載

相關文章
相關標籤/搜索