大牛用三年譜寫出大數據互聯網大規模數據挖掘與分佈式處理新樂章

時間 2020-05-28

原文原文鏈接

衆所周知，移動互聯網、社交媒體、電子商務和各類傳感器的運用產生了超大數據集，挖掘這些數據能夠提煉出有用的信息。

本篇以大數據環境下的數據挖掘和機器學習爲重點，全面介紹了實踐中行之有的數據處理算法，是在校學生和相關從業人員的必備讀物。主要內容包括10大內容:算法

◆分佈式文件系統以及MapReduce工具;數據庫

◆類似性搜索;網絡

◆數據流處理以及針對易丟失數據等特殊狀況的專用處理算法;框架

◆搜索引擎技術，如谷歌的PageRank;機器學習

◆頻繁項集挖掘;分佈式

◆大規模高維數據集的聚類算法;ide

◆Web應用中的關鍵問題一廣告管理和推薦系統;函數

◆社會網絡圖挖掘;工具

◆降維處理，如SVD分解和CUR分解;學習

◆大規模機器學習。

數據挖掘基本概念

本章爲全書的導論部分,首先闡述數據挖掘的本質,並討論其在多個相關學科中的不一樣理解。

接着介紹邦弗朗尼原理( Bonferroni's principle), 該原理實際上對數據挖掘的過分使用提出了警告。

本章還概述了一些很是有用的思想，它們未必都屬於數據挖掘的範疇，可是卻有利於理解數據挖掘中的某些重要概念。這些思想包括度量詞語重要性的TF.IDF權重、哈希函數及索引結構的性質、包含天然對數底e的恆等式等。最後，簡要介紹了後續章節所要涉及的主題。

類似項發現

一個基本的數據挖掘問題是從數據中得到「類似」項。咱們將在3.1節中介紹該問題的相關應用，而且給出一個具體的Web網頁近似查重的例子。這些近似重複的網頁多是抄襲網頁，或者僅僅是主機及其餘鏡像網頁信息有所不一樣的鏡像網頁。

首先咱們將類似度問題表述爲尋找具備相對較大交集的集合問題,接着咱們介紹如何將文本類似問題轉換爲上述集合問題並經過著名的「shingling" 技術來解決。而後，咱們介紹一一個稱爲最小哈希( minhashing)的技術，它可以對大集合進行壓縮，而且能夠基於壓縮後的結果推導原始集合的類似度。當類似度要求很高時，也可使用-些其餘的技術，這些技術將在3.9節進行介紹。

任意類型的類似項搜索中存在的另外-一個重要問題是,即便對每項之間的類似度計算很是簡單，可是因爲項對數目過多，沒法對全部項對檢測類似度。針對該問題，催生了一種稱爲局部敏感哈希( Locality Sensitive Hashing,簡稱LSH )的技術，該技術可以把搜索範圍集中在那些可能類似的項對上面。

最後，咱們再也不將類似度的概念限制在集合的交集運算上，而是考慮在任意空間下的距離度量理論。與此同時，這也激發了一個LSH的通用框架的出現，該框架可以應用在類似度的其餘定義中。

數據流挖掘

本書介紹的大部分算法都假定是從數據庫中進行挖掘。也就是說，若是真須要數據的時候，全部數據均可用。本章中，咱們將給出另外- -種假設:數據以一-個或多個流的方式到來，若是不對數據進行及時的處理或者存儲，數據將會永遠丟失。此外，咱們假定數據到來的速度實在是太快，以至將所有數據存在活動存儲器( 即傳統數據庫)並在咱們選定的時間進行交互是不可能的。

數據流處理的每一個算法都在某種程度上包含流的彙總( summarization)過程。咱們首先考慮如何從流中抽取有用樣本，以及如何從流中過濾除大部分「不想要」的元素。而後,咱們展現如何估計流中的獨立元素個數，其中估計方法所用的存儲開銷遠少於列舉全部所見元素的開銷。

另一種對流進行彙總的方法是隻觀察一個定長「窗口」，該窗口由最近的n個元素組成，其中n是某個給定值,一般較大。而後咱們就當它是數據庫的一一個關係-樣對窗口進行查詢處理。

若是有不少流而且/或者n很大，咱們可能沒法存下每一個流的整個窗口。所以，即便對這些「窗口」咱們都須要進行彙總處理。對於-一個位流窗口,其中的1的數目的近似估計是一個基本問題。

咱們將使用一種比存儲整個窗口消耗空間要少不少的方法。該方法也能推廣到對各類求和值進行近似。.

頻繁項集

本章主要關注數據刻畫的一類主要技術一頻繁項集發現。該問題經常被當作「關聯規則」發現，儘管後者主要是基於頻繁項集發現而實現的一一種更復雜的數據刻畫方式。

首先，咱們介紹數據的「購物籃」模型，其本質上是「項」和「購物籃」兩類元素之間的多對多關係。可是其中有一些關於數據形狀的假設。頻繁項集問題就是尋找出如今不少相同購物籃中(與該購物籃相關的)的項集。

頻繁項集發現問題和第3章討論的類似性搜索不一樣，前者主要關注包含某個特定項集的購物籃的絕對數目,然後者的主要目標是尋找購物籃之間具備較高重合度的項集，無論購物籃數目的絕對數量是否很低。

上述差別致使了一類新的頻繁項集發現算法的產生。咱們首先介紹A-Priori算法，該算法的基本思路是，若是-一個集合的子集不是頻繁項集，那麼該集合也不多是頻繁項集。基於這種思路，該算法能夠經過檢查小集合而去掉大部分不合格的大集合。接着，咱們介紹基本的A-Priori算法的各類改進，這些改進策略集中關注給可用內存帶來很大壓力的極大規模數據集。

再接下來，咱們還會考慮一些更快的近似算法,這些算法不能保證找到全部的頻繁項集。這類算法當中的一些算法也應用了並行化機制，包括基於MapReduce框架的並行化方法。

最後，咱們將簡要地討論數據流中的頻繁項集的發現問題。

大規模機器學習

如今有不少算法被納入「機器學習」類。同本書介紹的其餘算法同樣,這些算法的目的都是從數據中獲取信息。全部數據分析算法都是基於數據生成概要,基於這些概要信息能夠進行決策。

在不少例子中，第6章介紹的頻繁項集分析方法都生成了關聯規則這類信息，這些信息能夠用於規劃銷售策略或者爲其餘目標服務。

然而，稱爲「機器學習」的算法不只可以對數據進行歸納，還能夠將它們視做模型的學習器或者數據的分類器，於是能夠學到數據中將來能夠見到的某種信息。例如，第7章介紹的聚類算法能夠產生- -系列簇，這些簇不只能告訴咱們有關被分析數據(訓練集)的信息，並且可以將將來數據分到聚類算法生成的某-個簇當中。所以，機器學習愛好者一般用「非監督學習」這個新詞來表達聚類，術語「非監督」( unsupervised )表示輸人數據並不會告訴聚類算法最後輸出的簇到底應該是什麼。而在有監督( supervised )的機器學習(本章的主題)中，給出的數據中包含了至少對- -部分數據進行正確分類的信息。已經分好類的數據稱爲訓練集( training set )。

本章並不打算全面介紹機器學習中全部的方法,而只關注那些適用於處理極大規模數據的方法，以及有可能並行化實現的方法。咱們會介紹學習數據分類器的經典的「感知機」方法，該方法可以找到-一個將兩類數據分開的超平面。以後，咱們會考察-一些更現代的包括支持向量機的技術。與感知機相似，這些方法尋找最佳的分類超平面，以使盡量少(若是有的話)的訓練集元素靠近超平面。最後討論近鄰技術，即數據按照某個空間下最近的一些鄰居的類別進行分類。