今天爲你們帶來IT界最爲火爆的大數據行業的硬核知識點——大數據挖掘技術的體系分析。想要了解大數據或者開始學習大數據的你必定不要錯過。
對於大數據的挖掘請求,包括面向於文本的挖掘、機器學習等,挖掘算法的複雜度高、數據的計算量大,針對於大數據的規模大、速度快以及類型多樣的特色,將大數據挖掘算法的研究方向總結以下:
1)有效的大數據預處理技術大數據的規模大、處理速度快以及流式查詢處理的需求使得在對大數據進行分析以及挖掘時,必須提升數據預處理能力,以提高響應效率。目前針對於流式大數據的約簡技術,包括2種方式,一是基於數據的技術,其經過生成整個流式數據的概要或者選擇其中的部分子集來實現約簡,包括採樣(Sampling)、卸載技術(Load-shedding)、梗概(Sketching)、數據概要結構(SynopsisDataStructures)、集成(Aggregation),其中Sampling、Loadshedding以及Sketching經過必定規則選取整個流式數據的子集來代替原始數據從而減小數據存儲量、而SynopsisDataStructures以及Aggregation方法則經過歸納整個數據流的方式實現約簡;另外一種約簡方式是基於任務的技術,包括近似算法(Approximationalgorithms)、滑動窗口技術(SlidingWindow)以及輸出粒度(AlgorithmOutputGranularity)的方法,其主要是從空間上減小整個數據流的計算規模,這種對原始數據進行壓縮表達的思想更是在信號重建及還原領域獲得充分體現,如文獻將壓縮感知理論用於寬帶SAR信號偵察,其基於信號的稀疏性,利用較少的壓縮採樣數據得到了較高的信號估計精度。
點擊連接加入羣聊【大數據學習交流】:https://jq.qq.com/?_wv=1027&k=5K1Hvkc天天晚上20:10都有一節【免費的】大數據直播課程,專一大數據分析方法,大數據編程,大數據倉庫,大數據案例,人工智能,數據挖掘都是純乾貨分享,
2)非向量數據挖掘之前數據挖掘多假設數據爲向量數據,而大數據其結構具備多樣性,包含了半結構化以及非結構化數據,因此大數據算法應提升非向量數據挖掘能力。對於非結構化數據挖掘算法研究,涉及頻繁項挖掘、分類以及聚類等。例如,文獻提出了XRules算法,其爲面向半結構化數據的基於規則的分類方法,經過挖掘XML數據中的頻繁結構來創建分類規則,以發現文件中隱含的重要信息;Xproj算法則經過將數據中特殊頻繁子結構出現的頻度定義爲類間的類似性,將類似性定量化,從而實現XML文檔的聚類;POTMiner經過半序樹的並行挖掘實現XML文檔的結構信息表達。可是因爲非結構化數據以及半結構化數據的結構具備不肯定性,其價值的挖掘仍然面臨巨大挑戰,包括結構化信息的表達,類間類似性函數的構建、類似性函數的使用以及聚類中間結果的表達等
3)分佈式大數據挖掘算法早期的數據挖掘研究集中於單任務計算算法的性能提高,而隨着現今數據規模的增加以及類型複雜度的提高,尤爲是數據源的異構性以及分佈式存儲的方式,使得大數據的挖掘算法應具備分佈式數據挖掘能力。如TPFP-tree和BTPtree算法經過並行計算實現了電網系統中數據的頻繁項挖掘,其均採用了數據庫分而治之的思想;CARM算法雖沒有直接對數據庫進行劃分,可是其將數據分佈於雲環境中的各個節點;ARMH算法採用了基於Hadoop分佈式框架下不一樣雲服務的可用資源實現大規模數據的頻繁項挖掘,其可用於有效的處理增量數據庫。文獻基於HadoopMapReduce框架實現了並行的RIPPER(RepeatedIncrementalPruningforErrorReduction)算法,該算法利用每一個節點處理部分數據,而後將不一樣節點的結果集成爲一個分類器。由此可知,以上分佈式數據挖掘的實現必須有效的結合大數據的相關技術,如HadoopMapreduce框架以及雲服務等,才能更有效地解決分佈式數據挖掘問題。
4)可擴展的大數據挖掘算法大數據的高速性以及規模的不斷增加,使得大數據挖掘算法應具備可擴展性,即在數據規模擴大的狀況下,大數據挖掘算法仍能在有效的時間內快速響應挖掘請求。如文獻經過不一樣的並行策略以及雲服務加強了PIC算法的可擴展性,實現了大數據的聚類;文獻提出了基於MapReduce模型和雲計算的序列模式挖掘算法(SPAMC),將樹構建的子任務並行的分配於獨立的Mappers,而且並行的計算支持度,從而減小了大數據的挖掘時間。 現有的大數據挖掘技術介紹就到這裏了,雖然已經有部分大數據挖掘算法成型,可是大數據挖掘依然還有很大一部分發展空間。如今加入大數據行列,零基礎也沒有關係,只要進行系統的大數據學習,說不定下一個全新算法的獨創者就是你!