好程序員大數據技術盤點 你都知道嗎,大數據的概念,指的是沒法在必定時間內用常規軟件工具對其內容進行抓取、管理和處理的數據集合。而大數據技術,是指從各類各樣類型的數據中,快速得到有價值信息的能力。程序員
第一,數據採集數據庫
ETL工具負責將分佈的、異構數據源中的數據如關係數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成,最後加載到數據倉庫或數據集市中,成爲聯機分析處理、數據挖掘的基礎。bootstrap
第二,數據存取架構
關係數據庫、NOSQL、SQL等。機器學習
第三,基礎架構分佈式
雲存儲、分佈式文件存儲等。工具
第四,數據處理學習
天然語言處理(NLP,Natural Language Processing)是研究人與計算機交互的語言問題的一門學科。處理天然語言的關鍵是要讓計算機"理解"天然語言,因此天然語言處理又叫作天然語言理解(NLU,Natural Language Understanding),也稱爲計算語言學(Computational Linguistics。一方面它是語言信息處理的一個分支,另外一方面它是人工智能(AI, Artificial Intelligence)的核心課題之一。大數據
第五,統計分析ui
假設檢驗、顯著性檢驗、差別分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、迴歸分析、簡單迴歸分析、多元迴歸分析、逐步迴歸、迴歸預測與殘差分析、嶺迴歸、logistic迴歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。
第六,數據挖掘
分類 (Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、複雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)。
第七,模型預測
預測模型、機器學習、建模仿真。
第八,結果呈現
雲計算、標籤雲、關係圖等。
其實,關於大數據的技術內容遠不止以上內容,歡迎繼續關注。