轉自:http://blog.sina.com.cn/s/blog_687194cd01017lgu.htmlhtml
調研Hadoop頗久,就是想知道hadoop是什麼?hadoop能作什麼?怎麼用hadoop?最主要是這三塊,至於投入和風險也會隨之出來(濃縮了我幾十頁的調研方案啊!!!)
前端
- hadoop是什麼?
Hadoop是一個開源的框架,可編寫和運行分佈式應用,處理大規模數據,是專爲離線和大規模數據分析而設計的,並不適合那種對幾個記錄隨機讀寫的在線事務處理模式。Hadoop=HDFS(文件系統,數據存儲技術相關)+ Mapreduce(數據處理),Hadoop的數據來源能夠是任何形式,在處理半結構化和非結構化數據上與關係型數據庫相比有更好的性能,具備更靈活的處理能力,無論任何數據形式最終會轉化爲key/value,key/value是基本數據單元。用函數式變成Mapreduce代替SQL,SQL是查詢語句,而Mapreduce則是使用腳本和代碼,而對於適用於關係型數據庫,習慣SQL的Hadoop有開源工具hive代替。
- hadoop能作什麼?
hadoop擅長日誌分析,facebook就用Hive來進行日誌分析,2009年時facebook就有非編程人員的30%的人使用HiveQL進行數據分析;淘寶搜索中的自定義篩選也使用的Hive;利用Pig還能夠作高級的數據處理,包括Twitter、LinkedIn 上用於發現您可能認識的人,能夠實現相似Amazon.com的協同過濾的推薦效果。淘寶的商品推薦也是!在Yahoo!的40%的Hadoop做業是用pig運行的,包括垃圾郵件的識別和過濾,還有用戶特徵建模。(2012年8月25新更新,天貓的推薦系統是hive,少許嘗試mahout!)
- hadoop能爲我司作什麼?
零數據基礎,零數據平臺,一切起點都是0。
- 日誌處理
- 用戶細分特徵建模
- 個性化廣告推薦
- 智能儀器推薦
一切以增長企業的商業價值爲核心目的、最終目的
4.怎麼用hadoop?
java
- hadoop的應用的在我司還屬於研發型項目,擬用日誌的分析來走通一次流程,由於此階段目前來講還不須要數據挖掘的專業人員,在數據分析階段便可,而系統有數據庫工程師,Mapreduce有java開發工程師,而分析由我本人介入,而可視化暫時可由前端JS實現,原本個人調研方案,針對大數據的解決方案是hadoop+R的,可是對於R咱們是徹底不懂,在公司尚未大量投入人員的狀況下,只有日誌分析目前看來是最容易出成果的,也是能夠經過較少人員能出必定成果的,因此選取了這個方向做爲試點。首先要進行數據的存儲,一是要協調上游的服務廠商,關於日誌的抓取,二是hadoop系統的搭建,目前已經在緊張的籌備中了。