例如,IDC 最近的報告預測稱,到2020 年,全球數據量將擴大50倍。目前,大數據的規模尚是一個不斷變化的指標,單一數據集的規模範圍從幾十TB到數PB不等。簡而言之,存儲1 PB數據將須要兩萬臺配備50GB硬盤的我的電腦。此外,各類意想不到的來源都能產生數據。
高速描述的是數據被建立和移動的速度。在高速網絡時代,經過基於實現軟件性能優化的高速電腦處理器和服務器,建立實時數據流已成爲流行趨勢。企業不只須要瞭解如何快速建立數據,還必須知道如何快速處理、分析並返回給用戶,以知足他們的實時需求。
大數據具備多層結構,這意味着大數據會呈現出多變的形式和類型。相較傳統的業務數據,大數據存在不規則和模糊不清的特性,形成很難甚至沒法使用傳統的應用軟件進行分析。傳統業務數據隨時間演變已擁有標準的格式,可以被標準的商務智能軟件識別。目前,企業面臨的挑戰是處理並從各類形式呈現的複雜數據中挖掘價值。
第一,人們處理的數據從樣本數據變成所有數據;第二,因爲是全樣本數據,人們不得不接受數據的混雜性,而放棄對精確性的追求;第三,人類經過對大數據的處理,放棄對因果關係的渴求,轉而關注相關關係。事實上,大數據時代帶給人們的思惟方式的深入轉變遠不止上述三個方面。
5.準備python編程環境
下載安裝
https://www.python.org/
https://www.jetbrains.com/pycharm/download/#section=windows
基礎學習
廖雪峯https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000
菜鳥教程http://www.runoob.com/python3/python3-tutorial.html
6.簡單的輸入輸出編程練習
設計完成一個Mad Libs遊戲:
1).創造一個讓人歡樂的有趣的故事;
2).提示夥伴輸入相應類別的詞;
3).將故事完整地輸出。
代碼:
language1=input('請輸入一種編程語言:')
language2=input('請輸入另外一種編程語言:')
print("\n對於一個優秀的工程師來講,單單瞭解一種編程語言是遠不足夠的。\n因此咱們不單要學習一下{},還要學習一下{}".format(language1,language2))
運行結果: