最近項目中由於要用到大矩陣之間的相乘操做,若是使用java來寫的話數據量上來以後會很是消耗資源,所以考慮使用spark來進行計算處理,網上查找資料正好找到了Spark的機器學習庫Spark-Mllib裏面有一些矩陣的操做,所以拿來進行測試,可是由於主程序是java程序,網上找到了一些寫法也都是scala的 並且沒有具體的相乘的例子,只有一些原理介紹,本人之前也沒學過線性數學相關的知識,看的一臉懵逼,沒辦法本身慢慢對照梳理帶上連蒙帶猜的,總算有了一些小小的成果,在此分享下最後的結果以及踩過的坑.java
1,Pom.xml引入 Spark-Mllib 類庫apache
<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-mllib --> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-mllib_2.11</artifactId> <version>2.3.1</version> <scope>runtime</scope> </dependency>
這裏須要注意,由於咱們須要使用相關API,因此這裏<scope>runtime</scope>這句要去掉,使用默認的依賴方式就好了機器學習
<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-mllib_2.11</artifactId> <scope>runtime</scope> </dependency>
2,代碼學習
public static void main(String[] args) { SparkConf sparkConf = new SparkConf().setAppName("Mllib-test").setMaster("local"); JavaSparkContext jpc = new JavaSparkContext(sparkConf); double[][] data = new double[4][4] ; data[0][0] = 0.0; data[0][1] = 2.0; data[0][2] = 3.0; data[0][3] = 4.0; data[1][0] = 1.0; data[1][1] = 3.0; data[1][2] = 4.0; data[1][3] = 5.0; data[2][0] = 2.0; data[2][1] = 4.0; data[2][2] = 5.0; data[2][3] = 6.0; data[3][0] = 3.0; data[3][1] = 5.0; data[3][2] = 6.0; data[3][3] = 7.0; JavaRDD<IndexedRow> rdd=jpc.parallelize(Arrays.asList(data)).map(f->{ long key = new Double(f[0]).longValue(); double[] value = new double[f.length-1]; for(int i = 1;i<f.length;i++) { value[i-1] = f[i]; } return new IndexedRow(key,Vectors.dense(value)); }); BlockMatrix block = new IndexedRowMatrix(rdd.rdd()).toBlockMatrix(2, 2); double[][] data1 = new double[3][3] ; data1[0][0] = 0.0; data1[0][1] = 100.0; data1[0][2] = 10.0; data1[1][0] = 1.0; data1[1][1] = 10.0; data1[1][2] = 100.0; data1[2][0] = 2.0; data1[2][1] = 1.0; data1[2][2] = 1000.0; JavaRDD<IndexedRow> rdd1 = jpc.parallelize(Arrays.asList(data1)).map(f->{ long key = new Double(f[0]).longValue(); double[] value = new double[f.length-1]; for(int i = 1;i<f.length;i++) { value[i-1] = f[i]; } return new IndexedRow(key,Vectors.dense(value)); }); BlockMatrix block1 = new IndexedRowMatrix(rdd1.rdd()).toBlockMatrix(2, 2); block = block.multiply(block1); }
注意: 由於使用的是IndexedRowMatrix,因此矩陣的第一列爲矩陣行號,並且行號這個要嚴謹0開始的自增數字,必定要切記,我就在此吃了很大的虧.測試