做爲計算框架,Spark速度快,開發簡單,能同時兼顧批處理和實時數據分析,所以很快被廣大企業級用戶所採納,並隨着近年人工智能的崛起而成爲分析和挖掘大數據的重要得力工具。ios
《Spark高級數據分析第2版》由業內知名數據科學家執筆,經過豐富的示例展現瞭如何結合Spark、統計方法和真實世界數據集來解決數據分析問題,既涉及模型的構建和評價,也涵蓋數據清洗、數據預處理和數據探索,並描述瞭如何將結果變爲生產應用,是運用Apache Spark進行大數據分析和處理的實戰寶典。算法
《Spark高級數據分析(第2版)》中文PDF+英文PDF+源代碼編程
《Spark高級數據分析(第2版)》中文PDF,452頁,帶目錄,文字可複製;英文PDF,455頁,帶目錄,文字可複製;配套源代碼。服務器
下載: https://pan.baidu.com/s/1AljbMRZcv5_vJ5GxStfrpg
提取碼: iaar網絡
根據新版Spark最佳實踐,對樣例代碼和所用資料作了大量更新。涵蓋模式以下:
● 音樂推薦和Audioscrobbler數據集● 用決策樹算法預測森林植被● 基於K均值聚類進行網絡流量異常檢測
● 基於潛在語義算法分析維基百科● 用GraphX分析伴生網絡● 對紐約出租車軌跡進行空間和時間數據分析
● 經過蒙特卡羅模擬來評估金融風險● 基因數據分析和BDG項目● 用PySpark和Thunder分析神經圖像數據框架
結合理論和實踐,《Hadoop權威指南第四版》由淺入深,全方位介紹了Hadoop 這一高性能的海量數據處理和分析平臺。5部分24 章,第Ⅰ部分介紹Hadoop 基礎知識,第Ⅱ部分介紹MapReduce,第Ⅲ部分介紹Hadoop 的運維,第Ⅳ部分介紹Hadoop 相關開源項目,第Ⅴ部分提供了三個案例。運維
學習參考:《Hadoop權威指南第四版》中文PDF+英文PDF+代碼elasticsearch
《Hadoop權威指南(第四版)》中文PDF,734頁,帶書籤目錄;英文PDF,805頁,帶書籤目錄。配套源代碼。分佈式
下載: https://pan.baidu.com/s/13aLqszgjRZF2tpLeBwri3g工具
提取碼: tqct
Hadoop生態都有涉及,很厚很全:HDFS, MapReduce1&2(YARN), Hive, HBase, Pig, ZooKeeper, Sqoop等。 多數章節對本身的要求都是瞭解和能用便可,惟獨ZK一章愛不釋手,從算法到實現到操做到應用講的真是好。 系統性學習不仍是得看經典書籍。
Python做爲一種高級程序設計語言,憑藉其簡潔、易讀及可擴展性日漸成爲程序設計領域備受推崇的語言之一。《Python地理空間分析指南第2版》以地理空間分析爲背景,介紹了Python在地理信息處理方面的應用技巧。共分爲10章,分別介紹了Python與地理空間分析、地理空間數據、地理空間技術、Python的地理空間分析工具、Python與地理信息系統、Python與遙感、Python與高程數據、Python與地理空間高級建模、實時數據、綜合應用等內容。內容結構清晰,示例完整,適合但願瞭解測繪數字化和分析的讀者,也適合想使用Python進行空間地理分析、建模和GIS分析的開發人員及研究人員參考。
《Python地理空間分析指南第2版》中英文PDF+代碼
《Python地理空間分析指南(第2版)》中文PDF,289頁,帶書籤目錄,文字能夠複製。英文PDF,394頁,帶書籤目錄,文字能夠複製。中英文兩版對比學習。配套源代碼。
下載: https://pan.baidu.com/s/1e-I3JaSIZfUNC5mXa_7-5w
提取碼: n3mm
某種意義上說,elasticsearch 可分爲集羣層、索引層、分片層和最後的存儲引擎層(lucene);集羣層,一個節點做爲 master,採用 bully 算法選出,負責進行 allocation、全局狀態管理等;其餘節點做爲協調節點(gateway、query、route & merge) 和 數據節點;每一個 數據節點多個分片,分片間主從,採用 PacificA、translog 進行同步; 一個比較奇怪的點是,es 竟然是 partition by DocId(而非 term)這 致使了其搜索必須採用廣播形式,所以沒法作到很大規模;線程模型嘛,看起來是按照任務,分爲不一樣獨立的線程池和隊列,底層數 據共享。
對Elasticsearch進行改進的研發人員、平臺運維人員,對分佈式搜索感興趣的,在使用Elasticsearch過程當中遇到了問題,推薦學習 《Elasticsearch源碼解析與優化實戰》。
《Elasticsearch源碼解析與優化實戰 》PDF,362頁,帶目錄,文字可複製。配套源代碼。
下載: https://pan.baidu.com/s/1o5lSkqKxqiMnJwHIPiJ7cA
提取碼: kqgb
介紹了Elasticsearch的系統原理,旨在幫助瞭解其內部原理、設計思想,以及在生產環境中如何正確地部署、優化系統。系統原理分兩 方面介紹,一方面詳細介紹主要流程,例如啓動流程、選主流程、恢復流程;另外一方面介紹各重要模塊的實現,以及模塊之間的關係 ,例如gateway模塊、allocation模塊等。最後一部分介紹如何優化寫入速度、搜索速度等你們關心的實際問題,並提供了一些診斷問題 的方法和工具供參考。
初看ES源碼,有一本這樣的源碼解析的書,知道從哪一個模塊,更具體到哪一個類入手開始看,因此仍是有一些幫助的。其實發現書中好 多東西也是從官方文檔中借鑑過來的吧,結合書和英文文檔看,理解起來會快一些。好比第六章數據副本模型:參考的連接就有不少 docs-replication、elasticsearch-sequence-ids-6-0、pacifica-replication-in-log-based-distributed-storage-systems、issue-2484一、data-replication 、BullyExample。
Elasticsearch 是一個分佈式可擴展的實時搜索和分析引擎,一個創建在全文搜索引擎 Apache Lucene(TM) 基礎上的搜索引擎.固然 Elasticsearch 並不只僅是 Lucene 那麼簡單,它不只包括了全文搜索功能,還能夠進行如下工做:
分佈式實時文件存儲,並將每個字段都編入索引,使其能夠被搜索。實時分析的分佈式搜索引擎。能夠擴展到上百臺服務器,處理PB級別的結構化或非結構化數據。
《Elasticsearch服務器開發第2版》中文PDF+英文PDF+源代碼
《Elasticsearch服務器開發第2版》中文PDF,297頁,帶目錄,文字可複製。英文PDF,428頁,帶目錄,文字可複製。配套源代碼。
下載: https://pan.baidu.com/s/1J3YGv8y_BRF4KrHzchF-iw
提取碼: 54uw
內容基本上以ES官方網站的參考指南爲主,對於ES入門者幫助挺大。很好的入門手冊,講的很全面。開篇介紹各 種基礎概念,第三章對基本的搜索語句講的比較詳細。花了三天時間從無到有完成了個模糊查詢的 Java小需求,
感受很nice。介紹了Elasticsearch這個優秀的全文檢索和分析引擎從安裝和配置到集羣管理的各方面知識。
介紹如何啓動和運行Elasticsearch、Elasticsearch的基本概念,以及如何以最基本的方式索引和搜索數據。討論了 Querydsl查詢語言,經過它能夠建立複雜的查詢並過濾返回的結果。展現瞭如何使用切面技術(faceting)基於查
詢結果來計算彙總數據,如何使用新引進的聚合框架,如何使用Elasticsearch的空間搜索和預搜索,闡釋 Elasticsearch的管理API,如分片安置控制和集羣處理等功能。不論是全文檢索和Elasticsearch的初學者,仍是使用過Elasticsearch,能有所收穫。
構建智能搜索應用是如今互聯網業務中的工程熱點,相關性搜索須要必定的軟性技能,較高的查全率保證了全部正確的匹配都會出現 在搜索結果中,而較高的查準率則保證了搜索結果中只包含較少的錯誤匹配。
推薦學習《相關性搜索》,更多的是講搜索的原理,如何實現與用戶需求更相關的搜索結果,不囿於具體的語法,而是從高一層次講 述了相關性在搜索引擎中的重要性、實現和調優,加深了對搜索引擎的理解。
《相關性搜索利用Solr與Elasticsearch建立智能應用》中文PDF+英文PDF+源代碼
《相關性搜索利用Solr與Elasticsearch建立智能應用》中文PDF,391頁,帶目錄,文字可複製。英文PDF,362頁,帶目錄,文字可複製。配套源代碼。
下載: https://pan.baidu.com/s/1XSPScfOwmOgIRSHHgZmXAg
提取碼: mn39
《相關性搜索利用Solr與Elasticsearch建立智能應用》揭開了相關性搜索的神祕面紗,告訴你們如何將 Elasticsearch與 Solr這樣的搜索引擎 做爲可編程的相關性框架,從而表達業務排名規則。
學會如何結合各類外部數據源、分類方法以及文本分析手段對相關性進行編程,以知足用戶的個性化需求,將使人滿意的搜索結果呈 現給用戶。學習怎樣與業務人員協做,爲業務找到正確的相關性需求,從而在搜索產品的整個研發生命週期內,實現相關性改進的良 性循環。
《相關性搜索利用Solr與Elasticsearch建立智能應用》介紹了搜索引擎的基本原理,及相關性搜索的調試技術,用大量實例的方式詳述了 搜索引擎的諸多特性,以造成一整套針對相關性搜索的系統化方法,並倡致使力於提升搜索質量的企業文化。適用於想利用 Elasticsearch或 Solr嘗試構建智能搜索應用的開發人員。
在使用搜索引擎的時候,咱們關心的是其與相關性有關的那些特性,而全然不會涉及其餘特性或知識點,這些特性包括:內容分析、 數據提取、特徵縮放、和性能表現。