1.Oozie是任務調度管理系統: 固然簡單的能夠用crontab表達式結合shell腳本做爲任務調度管理系統前端
2.關係型數據庫導入數據到大數據平臺用sqoop和Canal , Sqoop適合關係數據庫數據的批量導入,若是想實時導入關係數據庫的數據,能夠選擇Canal。算法
Canal是阿里巴巴開源的一個MySQL binlog獲取工具,binlog是MySQL的事務日誌,可用於MySQL數據庫主從複製,Canal將本身假裝成MySQL從庫,從MySQL獲取binlog。shell
而咱們只要開發一個Canal客戶端程序就能夠解析出來MySQL的寫操做數據,將這些數據交給大數據流計算處理引擎,就能夠實現對MySQL數據的實時處理了。數據庫
3.前端埋點數據採集也是互聯網應用大數據的重要來源之一,用戶的某些前端行爲並不會產生後端請求,好比用戶在一個頁面的停留時間、用戶拖動頁面的速度、用戶選中一個複選框而後又取消了。這些信息對於大數據處理,對於分析用戶行爲,進行智能推薦都頗有價值。可是這些數據必須經過前端埋點得到,所謂前端埋點,就是應用前端爲了進行數據統計和分析而採集數據。後端
4.網絡
5.咱們學大數據,手裏用的是技術,眼裏要看到數據,要讓數據爲你所用。數據纔是核心纔是不可代替的,技術並非機器學習
6.大數據愈來愈多的和人工智能關聯起來了,所謂的人工智能就是利用數學統計方法,統計數據中的規律,而後利用這些統計規律進行自動化數據處理,使計算機表現出某種智能的特性,而各類數學統計方法,就是大數據算法函數
7.數據挖掘的典型應用場景有搜索排序、關聯分析、聚類工具
8.所謂的人工智能,在技術層面不少時候就是指機器學習,經過選擇特定的算法對樣本數據進行計算,得到一個計算模型,並利用這個模型,對之前不曾見過的數據進行預測。若是這個預測在必定程度上和事實相符,咱們就認爲機器像人同樣具備某種智能,即人工智能。oop
9.樣本就是一般咱們常說的「訓練數據」,包括輸入和結果兩部分。好比咱們要作一個自動化新聞分類的機器學習系統,對於採集的每一篇新聞,可以自動發送到對應新聞分類頻道里面,好比體育、軍事、財經等。這時候咱們就須要批量的新聞和其對應的分類類別做爲訓練數據。一般隨機選取一批現成的新聞素材就能夠,可是分類須要人手工進行標註,也就是須要有人閱讀每篇新聞,根據其內容打上對應的分類標籤。
10.模型就是映射樣本輸入與樣本結果的函數,多是一個條件機率分佈,也多是一個決策函數。一個具體的機器學習系統全部可能的函數構成了模型的假設空間
算法就是要從模型的假設空間中尋找一個最優的函數,使得樣本空間的輸入$X$通過該函數的映射獲得的$f(X)$,和真實的$Y$值之間的距離最小。這個最優的函數一般沒辦法直接計算獲得,即沒有解析解,須要用數值計算的方法不斷迭代求解。所以如何尋找到$f$函數的全局最優解,以及使尋找過程儘可能高效,就構成了機器學習的算法。
11.如何保證$f$函數或者$f$函數的參數空間最接近最優解,就是算法的策略。機器學習中用損失函數來評估模型是否最接近最優解。損失函數用來計算模型預測值與真實值的差距,經常使用的有0-1損失函數、平方損失函數、絕對損失函數、對數損失函數等。。一個機器學習模型的參數可能有數百萬,訓練的樣本數據則會更多,所以機器學習一般依賴大數據技術進行模型訓練,而機器學習及其高階形態的神經網絡、深度學習則是實現人工智能的主要手段。