在 NoSQL 方面,以前瞭解到百度對 Hadoop 和 hypertable 都有研究,並且 hypertable 方面更是做爲其主要贊助商之一,但以前和百度的一些朋友瞭解到百度內部對 hypertable 卻是使用很少,相反在 Hadoop 方面卻是有比較大的應用實例。下面一篇文章描述了百度內部4000個結點的 Hadoop 集羣的一些技術細節。html
百度的高性能計算系統(主要是後端數據訓練和計算)目前有4000節點,超過10個的集羣,最大的集羣規模在1000個節點以上。每一個節點由8核CPU以及16G內存以及12TB硬盤組成,天天的數據生成量在3PB以上。規劃當中的架構將有超過1萬個節點,天天的數據生成量在10PB以上。算法
底層的計算資源管理層採用了Agent調度不一樣類型的計算分別給MPI結構的算法和Map-Reduce和DAG算法應用等。而經過調度的分配,能夠讓HPC高性能計算集羣和大規模分佈式集羣各得其所的計算相應數據。sql
百度經過HCE對streaming做業的排序,壓縮,解壓縮,內存控制進行了優化並提供了C++版的MapReduce接口。apache
百度HCE語言的有關內容,HCE是基於C++的Hadoop環境,是一個全功能C++環境,能夠避開Java語言對於釋放內存和資源申請的弊端,並在調用數據時繞開Java語言的全部關節,極大的提高算法效率。後端
百度的調度器是在capacity-scheduler的基礎上根據自身業務改進的。架構
百度計劃對shuffle流程進行大幅改造nosql
轉自:http://www.cnblogs.com/chinacloud/archive/2010/11/08/1871592.html分佈式
Hadoop的知名應用項目請參考:oop
http://wiki.apache.org/hadoop/PoweredBy性能