LSTM java 實現

時間 2019-11-12

標籤 lstm java 實現欄目 Java 简体版

原文原文鏈接

因爲實驗室事情緣故，須要將Python寫的神經網絡轉成Java版本的，可是python中的numpy等啥包也不知道在Java裏面對應的是什麼工具，因此索性直接尋找一個現成可用的Java神經網絡框架，因而就找到了JOONE，JOONE是一個神經網絡的開源框架，使用的是BP算法進行迭代計算參數，使用起來比較方便也比較實用，下面介紹一下JOONE的一些使用方法。java

JOONE須要使用一些外部的依賴包，這在官方網站上有，也能夠在這裏下載。將所需的包引入工程以後，就能夠進行編碼實現了。python

首先看下完整的程序，這個是上面那個超連接給出的程序，應該是官方給出的一個示例吧，由於好多文章都用這個，這實際上是神經網絡訓練一個異或計算器：算法

[java] view plain copy

import org.joone.engine.*;
import org.joone.engine.learning.*;
import org.joone.io.*;
import org.joone.net.*;
/*
*
* JOONE實現
*
* */
public class XOR_using_NeuralNet implements NeuralNetListener
{
private NeuralNet nnet = null;
private MemoryInputSynapse inputSynapse, desiredOutputSynapse;
LinearLayer input;
SigmoidLayer hidden, output;
boolean singleThreadMode = true;
// XOR input
private double[][] inputArray = new double[][]
{
{ 0.0, 0.0 },
{ 0.0, 1.0 },
{ 1.0, 0.0 },
{ 1.0, 1.0 } };
// XOR desired output
private double[][] desiredOutputArray = new double[][]
{
{ 0.0 },
{ 1.0 },
{ 1.0 },
{ 0.0 } };
/**
* @param args
* the command line arguments
*/
public static void main(String args[])
{
XOR_using_NeuralNet xor = new XOR_using_NeuralNet();
xor.initNeuralNet();
xor.train();
xor.interrogate();
}
/**
* Method declaration
*/
public void train()
{
// set the inputs
inputSynapse.setInputArray(inputArray);
inputSynapse.setAdvancedColumnSelector(" 1,2 ");
// set the desired outputs
desiredOutputSynapse.setInputArray(desiredOutputArray);
desiredOutputSynapse.setAdvancedColumnSelector(" 1 ");
// get the monitor object to train or feed forward
Monitor monitor = nnet.getMonitor();
// set the monitor parameters
monitor.setLearningRate(0.8);
monitor.setMomentum(0.3);
monitor.setTrainingPatterns(inputArray.length);
monitor.setTotCicles(5000);
monitor.setLearning(true);
long initms = System.currentTimeMillis();
// Run the network in single-thread, synchronized mode
nnet.getMonitor().setSingleThreadMode(singleThreadMode);
nnet.go(true);
System.out.println(" Total time= "
+ (System.currentTimeMillis() - initms) + " ms ");
}
private void interrogate()
{
double[][] inputArray = new double[][]
{
{ 1.0, 1.0 } };
// set the inputs
inputSynapse.setInputArray(inputArray);
inputSynapse.setAdvancedColumnSelector(" 1,2 ");
Monitor monitor = nnet.getMonitor();
monitor.setTrainingPatterns(4);
monitor.setTotCicles(1);
monitor.setLearning(false);
MemoryOutputSynapse memOut = new MemoryOutputSynapse();
// set the output synapse to write the output of the net
if (nnet != null)
{
nnet.addOutputSynapse(memOut);
System.out.println(nnet.check());
nnet.getMonitor().setSingleThreadMode(singleThreadMode);
nnet.go();
for (int i = 0; i < 4; i++)
{
double[] pattern = memOut.getNextPattern();
System.out.println(" Output pattern # " + (i + 1) + " = "
+ pattern[0]);
}
System.out.println(" Interrogating Finished ");
}
}
/**
* Method declaration
*/
protected void initNeuralNet()
{
// First create the three layers
input = new LinearLayer();
hidden = new SigmoidLayer();
output = new SigmoidLayer();
// set the dimensions of the layers
input.setRows(2);
hidden.setRows(3);
output.setRows(1);
input.setLayerName(" L.input ");
hidden.setLayerName(" L.hidden ");
output.setLayerName(" L.output ");
// Now create the two Synapses
FullSynapse synapse_IH = new FullSynapse(); /* input -> hidden conn. */
FullSynapse synapse_HO = new FullSynapse(); /* hidden -> output conn. */
// Connect the input layer whit the hidden layer
input.addOutputSynapse(synapse_IH);
hidden.addInputSynapse(synapse_IH);
// Connect the hidden layer whit the output layer
hidden.addOutputSynapse(synapse_HO);
output.addInputSynapse(synapse_HO);
// the input to the neural net
inputSynapse = new MemoryInputSynapse();
input.addInputSynapse(inputSynapse);
// The Trainer and its desired output
desiredOutputSynapse = new MemoryInputSynapse();
TeachingSynapse trainer = new TeachingSynapse();
trainer.setDesired(desiredOutputSynapse);
// Now we add this structure to a NeuralNet object
nnet = new NeuralNet();
nnet.addLayer(input, NeuralNet.INPUT_LAYER);
nnet.addLayer(hidden, NeuralNet.HIDDEN_LAYER);
nnet.addLayer(output, NeuralNet.OUTPUT_LAYER);
nnet.setTeacher(trainer);
output.addOutputSynapse(trainer);
nnet.addNeuralNetListener(this);
}
public void cicleTerminated(NeuralNetEvent e)
{
}
public void errorChanged(NeuralNetEvent e)
{
Monitor mon = (Monitor) e.getSource();
if (mon.getCurrentCicle() % 100 == 0)
System.out.println(" Epoch: "
+ (mon.getTotCicles() - mon.getCurrentCicle()) + " RMSE: "
+ mon.getGlobalError());
}
public void netStarted(NeuralNetEvent e)
{
Monitor mon = (Monitor) e.getSource();
System.out.print(" Network started for ");
if (mon.isLearning())
System.out.println(" training. ");
else
System.out.println(" interrogation. ");
}
public void netStopped(NeuralNetEvent e)
{
Monitor mon = (Monitor) e.getSource();
System.out.println(" Network stopped. Last RMSE= "
+ mon.getGlobalError());
}
public void netStoppedError(NeuralNetEvent e, String error)
{
System.out.println(" Network stopped due the following error: "
+ error);
}
}

如今我會逐步解釋上面的程序。數組

【1】從main方法開始提及，首先第一步新建一個對象：網絡

[java] view plain copy

XOR_using_NeuralNet xor = new XOR_using_NeuralNet();

【2】而後初始化神經網絡：數據結構

[java] view plain copy

xor.initNeuralNet();

初始化神經網絡的方法中：多線程

[java] view plain copy

// First create the three layers
input = new LinearLayer();
hidden = new SigmoidLayer();
output = new SigmoidLayer();
// set the dimensions of the layers
input.setRows(2);
hidden.setRows(3);
output.setRows(1);
input.setLayerName(" L.input ");
hidden.setLayerName(" L.hidden ");
output.setLayerName(" L.output ");

上面代碼解釋：框架

input=new LinearLayer()是新建一個輸入層，由於神經網絡的輸入層並無訓練參數，因此使用的是線性層；函數

hidden = new SigmoidLayer();這裏是新建一個隱含層，使用sigmoid函數做爲激勵函數，固然你也能夠選擇其餘的激勵函數，如softmax激勵函數工具

output則是新建一個輸出層

以後的三行代碼是創建輸入層、隱含層、輸出層的神經元個數，這裏表示輸入層爲2個神經元，隱含層是3個神經元，輸出層是1個神經元

最後的三行代碼是給每一個輸出層取一個名字。

[java] view plain copy

// Now create the two Synapses
FullSynapse synapse_IH = new FullSynapse(); /* input -> hidden conn. */
FullSynapse synapse_HO = new FullSynapse(); /* hidden -> output conn. */
// Connect the input layer whit the hidden layer
input.addOutputSynapse(synapse_IH);
hidden.addInputSynapse(synapse_IH);
// Connect the hidden layer whit the output layer
hidden.addOutputSynapse(synapse_HO);
output.addInputSynapse(synapse_HO);

上面代碼解釋：

上面代碼的主要做用是將三個層鏈接起來，synapse_IH用來鏈接輸入層和隱含層，synapse_HO用來鏈接隱含層和輸出層

[java] view plain copy

// the input to the neural net
inputSynapse = new MemoryInputSynapse();
input.addInputSynapse(inputSynapse);
// The Trainer and its desired output
desiredOutputSynapse = new MemoryInputSynapse();
TeachingSynapse trainer = new TeachingSynapse();
trainer.setDesired(desiredOutputSynapse);

上面代碼解釋：

上面的代碼是在訓練的時候指定輸入層的數據和目的輸出的數據，

inputSynapse = new MemoryInputSynapse();這裏指的是使用了從內存中輸入數據的方法，指的是輸入層輸入數據，固然還有從文件輸入的方法，這點在文章後面再談。同理，desiredOutputSynapse = new MemoryInputSynapse();也是從內存中輸入數據，指的是從輸入層應該輸出的數據

[java] view plain copy

// Now we add this structure to a NeuralNet object
nnet = new NeuralNet();
nnet.addLayer(input, NeuralNet.INPUT_LAYER);
nnet.addLayer(hidden, NeuralNet.HIDDEN_LAYER);
nnet.addLayer(output, NeuralNet.OUTPUT_LAYER);
nnet.setTeacher(trainer);
output.addOutputSynapse(trainer);
nnet.addNeuralNetListener(this);

上面代碼解釋：

這段代碼指的是將以前初始化的構件鏈接成一個神經網絡，NeuralNet是JOONE提供的類，主要是鏈接各個神經層，最後一個nnet.addNeuralNetListener(this);這個做用是對神經網絡的訓練過程進行監聽，由於這個類實現了NeuralNetListener這個接口，這個接口有一些方法，能夠實現觀察神經網絡訓練過程，有助於參數調整。

【3】而後咱們來看一下train這個方法：

[java] view plain copy

inputSynapse.setInputArray(inputArray);
inputSynapse.setAdvancedColumnSelector(" 1,2 ");
// set the desired outputs
desiredOutputSynapse.setInputArray(desiredOutputArray);
desiredOutputSynapse.setAdvancedColumnSelector(" 1 ");

上面代碼解釋：

inputSynapse.setInputArray(inputArray);這個方法是初始化輸入層數據，也就是指定輸入層數據的內容，inputArray是程序中給定的二維數組，這也就是爲何以前初始化神經網絡的時候使用的是MemoryInputSynapse，表示從內存中讀取數據

inputSynapse.setAdvancedColumnSelector(" 1,2 ");這個表示的是輸入層數據使用的是inputArray的前兩列數據。

desiredOutputSynapse這個也同理

[java] view plain copy

Monitor monitor = nnet.getMonitor();
// set the monitor parameters
monitor.setLearningRate(0.8);
monitor.setMomentum(0.3);
monitor.setTrainingPatterns(inputArray.length);
monitor.setTotCicles(5000);
<span style="line-height: 1.5;">monitor.setLearning(true);

上面代碼解釋：

這個monitor類也是JOONE框架提供的，主要是用來調節神經網絡的參數，monitor.setLearningRate(0.8);是用來設置神經網絡訓練的步長參數，步長越大，神經網絡梯度降低的速度越快，monitor.setTrainingPatterns(inputArray.length);這個是設置神經網絡的輸入層的訓練數據大小size，這裏使用的是數組的長度；monitor.setTotCicles(5000);這個指的是設置迭代數目；monitor.setLearning(true);這個true表示是在訓練過程。

[java] view plain copy

nnet.getMonitor().setSingleThreadMode(singleThreadMode);
nnet.go(true);

上面代碼解釋：

nnet.getMonitor().setSingleThreadMode(singleThreadMode);這個指的是是否是使用多線程，可是我不太清楚這裏的多線程指的是什麼意思

nnet.go(true)表示的是開始訓練。

【4】最後來看一下interrogate方法

[java] view plain copy

double[][] inputArray = new double[][]
{
{ 1.0, 1.0 } };
// set the inputs
inputSynapse.setInputArray(inputArray);
inputSynapse.setAdvancedColumnSelector(" 1,2 ");
Monitor monitor = nnet.getMonitor();
monitor.setTrainingPatterns(4);
monitor.setTotCicles(1);
monitor.setLearning(false);
MemoryOutputSynapse memOut = new MemoryOutputSynapse();
// set the output synapse to write the output of the net
if (nnet != null)
{
nnet.addOutputSynapse(memOut);
System.out.println(nnet.check());
nnet.getMonitor().setSingleThreadMode(singleThreadMode);
nnet.go();
for (int i = 0; i < 4; i++)
{
double[] pattern = memOut.getNextPattern();
System.out.println(" Output pattern # " + (i + 1) + " = "
+ pattern[0]);
}
System.out.println(" Interrogating Finished ");
}

這個方法至關於測試方法，這裏的inputArray是測試數據，注意這裏須要設置monitor.setLearning(false);，由於這不是訓練過程，並不須要學習，monitor.setTrainingPatterns(4);這個是指測試的數量，4表示有4個測試數據（雖然這裏只有一個）。這裏還給nnet添加了一個輸出層數據對象，這個對象mmOut是初始測試結果，注意到以前咱們初始化神經網絡的時候並無給輸出層指定數據對象，由於那個時候咱們在訓練，並且指定了trainer做爲目的輸出。

接下來就是輸出結果數據了，pattern的個數和輸出層的神經元個數同樣大，這裏輸出層神經元的個數是1，因此pattern大小爲1.

【5】咱們看一下測試結果：

[java] view plain copy