今天作的就是將fpg跑出來的結果進行各類指標計算,可是由於用python仍是不是特別熟悉,由於沒有找到python能處理相似SequenceFile這樣的類庫,因此就用java編寫,這下就是折騰各類包引用,就是classpath的引用。因爲涉及到hadoop和mahout的包,這樣須要添加到classpath裏面的包就不少不少,若是本身一個一個的添加,也許一天下來就差很少完了(我本身就這樣折騰了好幾個小時),最後在網上處處搜找到了「classpath多個包添加」這個方法。還有用shell的,可是本身還不會。程序差很少就跑通了。那今天目前遇到的問題:html
一、classpath的添加java
二、java的OutOfMemoryError:Java heap space:分開處理了part-r-00000,和part-r-00001python
三、還有就是最後關聯規則的度量標準,雖然知道有哪些,可是仍是不是特別明白其數值大小表明什麼意思。web
http://www.cnblogs.com/fengfenggirl/p/3255173.html;shell
http://web.engr.illinois.edu/~hanj/pdf/pkdd07_twu.pdf;session
http://www.nyu.edu/classes/jcf/g22.3033-002/slides/session6/MiningFrequentPatternsAssociationAndCorrelations.pdf;數據結構
四、一開始的數據的處理就有問題:對於關聯規則,1、不存在時間順序問題,2、每個事物裏面不要用重複的數據,這樣用python處理的話,就要考慮用到數據結構。python處理: http://woodpecker.org.cn/diveintopython/native_data_types/lists.html;http://woodpecker.org.cn/diveintopython/index.html;http://sebug.net/paper/python/ch09s04.html;ide
http://wangwei007.blog.51cto.com/68019/903426oop
五、數據的report和action,不能每個都有記錄,只保留須要加載的:view0,view1,related。post