大數據測試技術研究

大數據的特徵:html

數據體量巨大(volume)
數據類型繁多(variety)
價值密度低(value)
處理速度快(velocity)

大數據測試的挑戰:git

平臺軟件的複雜性和發佈節奏之間的矛盾
通用平臺支持多種不一樣應用帶來測試用例數的爆炸
對於大規模集羣上的問題如何用小規模測試集羣暴露

處理流程的5個階段:github

大數據採集
大數據導入/預處理
大數據統計分析
大數據挖掘
大數據分析

大數據測試——功能性測試方法:apache

數據導入/預處理驗證階段
MapReduce數據輸出驗證階段
驗證大數據ETL(數據提取、轉換和加載)到數據倉庫
驗證分析報告

大數據測試——非功能性測試方法:canvas

性能測試
容錯性測試
可用性測試
擴展性測試
穩定性測試
部署方式測試
數據一致性測試
壓力測試

大數據測試——針對「4V」特性的測試網絡

大致量特性測試
多類型特性測試
高速度特性測試
低價值密度特性測試

大數據測試基準併發

TestDFSIO:用於測試HDFS的IO性能,使用一個MapReduce做業來併發地執行讀寫操做,每一個map任務用於讀或寫每一個文件,map的輸出用於收集與處理文件相關的統計信息,reduce用於累積統計信息,併產生統計總結;
 
MRBench:會屢次重複執行一個小做業,用於檢查在機羣上小做業的運行是否可重複以及運行是否高效;
 
NNBench:用於測試NameNode的負載,它會生成不少與HDFS相關的請求,給NameNode施加較大的壓力。這個測試能在HDFS上模擬建立、讀取、重命名和刪除文件等操做;
 
HiBench:Intel開發的一個Hadoop benchmark suit,包含9個典型的Hadoop負載,benchmark程序負載的特色以下表所示;

Sleep:命令行程序是批處理延時用的,佔用資源少。Sleep基準能夠用來比較核調度和MapReduce處理的有效性,在Hadoop World 2011上被提出來,能夠測試分配任務到網絡平臺的速度;工具

TeraSort :測試Hadoop的一個有效的排序測試。經過Hadoop自帶的TeraSort 排序程序,測試不一樣的map任務和reduce任務數量對Hadoop性能的影響。實驗數據由程序中的TeraGen程序生成,數據量爲1GB和10GB。一個完整的TeraSort 測試須要按如下三步執行:用TeraGen 生成隨機數據;對輸入數據運行TeraSort; 用TeraValidate 驗證排好序的輸出數據;oop

大數據測試經常使用工具性能

相關文章
相關標籤/搜索