網格計算經過利用大量異構計算機(一般爲臺式機)的未用資源(CPU週期和磁盤存儲),將其做爲嵌入在分佈式電信基礎設施中的一個虛擬的計算機集羣,爲解決大規模的計算問題提供一個模型。html
志願計算:web
捐獻CPU週期shell
job tracker 的任務是 追蹤mapreduce 做業數據庫
SEARCH 組成部分編程
crawler:下載網頁,webmap 構建網絡地圖安全
indexer : 爲最佳界面構建反向索引網絡
hadoop技術棧:數據結構
序列化:框架
將結構化的對象轉爲字節流ssh
用於進程間的通訊和持久存儲;
什麼是序列化?序列化就是將數據結構或對象轉換成二進制串的過程,也就是編碼的過程。
什麼是反序列化?將在序列化過程當中所生成的二進制串轉換成數據結構或者對象的過程。
爲何須要序列化?轉換爲二進制串後纔好進行網絡傳輸嘛!
爲何須要反序列化?將二進制轉換爲對象纔好進行後續處理!
從RPC的角度上看,主要看三點:1)通用性,好比是否能支持Map等複雜的數據結構;2)性能,包括時間複雜度和空間複雜度,因爲RPC框架將會被公司幾乎全部服務使用,若是序列化上能節約一點時間,對整個公司的收益都將很是可觀,同理若是序列化上能節約一點內存,網絡帶寬也能省下很多;3)可擴展性,對互聯網公司而言,業務變化飛快,若是序列化協議具備良好的可擴展性,支持自動增長新的業務字段,而不影響老的服務,這將大大提供系統的靈活度。
RPC(Remote Procedure Call Protocol):http://www.cnblogs.com/LBSer/p/4853234.html
core : 一系列分佈式文件系統和通用I/O組件和接口(序列化,JAVA RPC,持久化數據結構)
ARvo :一種高效跨語言 rpc 數據序列系統,持久化數據存儲
mapreduce :分佈式數據處理模式和執行環境,大型商用機集羣
HDFS : 分佈式文件系統
Pig : 一種數據流語言和運行環境,檢索很是大的數據集。pig 運行在 mapreduce 和 Hdfs上
Hbase : 一個分佈式的列存儲的數據庫,Hbase 使用hdfs做爲底層存儲,支持mapreduce批量式計算和點查詢(隨機讀取)
Zookeeper : 一個分佈式的 高可用性的 協調服務,提供分佈式鎖的服務用於構建分佈式應用
Hive : 分佈式數據倉庫,管理hdfs中存儲的數據,並提供SQL查詢
Chukwa : 分佈式數據收集和分析系統,運行hdfs中的存儲數據的收集器,使用mapreduce生成報告
shell編程 awk
Map reduce邏輯數據流 shuffle「洗牌」
多個reduce任務的mapreduce數據流
客戶端從HDFS讀取數據
ssh 安全外殼協議
zookeeper: 目的是提供一些工具集,用來創建安全處理局部故障的分佈式應用
計算一個網頁的重要性:那些網頁包含該網頁指向的外向連接
有一段時間沒作這方面的工做了,之前的草稿,發一下。