【問題描述】
sdbexprt工具導出數據性能如何,可否提供性能測試報告?
廣東省農信運維人員比較關心如下狀況:
如:導出的集合是多維分區表,範圍切分以時間做爲切分字段,一年一個子表,hash切分則以"_id"切分,該集合中有3年1000w條記錄,每條記錄約100kb,現須要將1000W的數據從集合中導出,須要多長的時間?運維
【問題回覆】工具
- 導出工具只能從一個coord節點上導出數據。理論上,當這個coord節點所在的機器的帶寬被打滿(如千兆網爲128M/s)時,性能就到達最高點。
- 實際上,決定導出工具性能的關鍵點在於數據存放在集羣的多少個分區上。若是說數據存放在10個分區上,那麼同一時間,就有10個節點在給 coord節點傳輸數據,這樣coord節點所在機器的帶寬將極大地被利用。這樣導出速度也更快。