通過一段時間的等待,目前已經能夠在各大電商平臺『現貨』購買本書。本文後面也有京東、噹噹、天貓的購買連接!
html
本書以數據分析領域最熱的Python語言爲主要線索,介紹數據分析庫Numpy、Pandas與機器學習庫Scikit-Learn,使用了可視化環境Orange3來理解算法的一些細節。算法
對於機器學習,既有經常使用算法KNN與Kmeans的應用,決策樹與隨機森林的實戰,還涉及經常使用特徵工程與深度學習中的自動編程器。
在大數據Hadoop與Hive環境的基礎之上,使用Spark的ML/MLLib庫來集成了前面的各部份內容,讓分佈式機器學習更容易。大量的工具與技能實戰,從而將各部分融合成爲一個全棧的數據科學內容。編程
該節選自《全棧數據之門》第四章『數據分析,見微知著』的引言部分!
機器學習
若是你要問大數據分析最先起源於哪裏,答案天然是有着5千年悠久歷史的中國了。若君不信,且看下面的說明。分佈式
大數據工具
有一顆樹,很是很是大,一我的搬不動,因而魯班發明了鋸子,將樹鋸成不少小節,而後找不少人來幫忙搬,這樣不只速度快,並且效率高。此所謂「大樹鋸」是也。這樣一傳十,十傳百,傳到其它國家,你們訛傳訛,就變成了「大數據」。oop
分佈式存儲學習
爲了保證高可用性,魯班教了你們一個好方法。將一樣的木料,分3份保存,本身家放一份,鄰居家放一份,鄰村裏面再放一份。若是本身家被燒了,還可使用鄰居家的那份。若是整個村子被水湮(或者像如今電視劇裏演的同樣,在古代可能會一不當心被滅村),還有鄰居村子的那份可使用。大數據
數據分析網站
將樹鋸斷後,分紅一小節一小節的,統計每節的長度,面積等等。分析木料是否有被蟲咬過,以及如何防止其它樹也被相似的蟲咬。分析樹每一年的增加幅度,以及天天須要投入多少水資源來促進樹的快速增加。
數據挖掘
魯班經過分析樹幹上面的紋理,發現了樹的年輪規律,這樣能夠快速瞭解樹生長了多少年。這個方法被魯班創建成了一個模型,用於預測其它樹每一年的生長速度。另外,還將樹根「挖掘」出來,分析爲何這個地方能產生這麼大的樹,和土地是否有關係,土壤的成分是什麼,可否將這種土壤移植到其它地方等等。總之,是真正的進行了數據的「挖掘」。
所以,大數據分析技術不只起源於中國,並且其祖師正是木工藝人的祖師--魯班。
一本正經的胡說八道了這麼多,相信你對數據分析有了一個初步的瞭解吧。
欲瞭解更多的內容,請關注下面購買地址
。
京東:
https://item.jd.com/12054675....
噹噹:
http://product.dangdang.com/2...
天貓:
https://detail.tmall.com/item...
博文視點:
http://www.broadview.com.cn/b...
豆瓣:
https://book.douban.com/subje...
百度百科:
http://baike.baidu.com/item/全棧數據之門/20490226
請輸入代碼
本文題圖取自《全棧數據之門》的封底,使用的是Orange3製做的數據挖掘流程『演示』圖。