來源:ApacheCN《面向機器學習的特徵工程》翻譯項目git
譯者:friedhelm739github
校對:(虛位以待)算法
當在數據一個線性子空間像扁平餅時 PCA 是很是有用的。可是若是數據造成更復雜的形狀呢?一個平面(線性子空間)能夠推廣到一個 流形 (非線性子空間),它能夠被認爲是一個被各類拉伸和滾動的表面。apache
若是線性子空間是平的紙張,那麼捲起的紙張就是非線性流形的例子。你也能夠叫它瑞士捲。(見圖 7-1),一旦滾動,二維平面就會變爲三維的。然而,它本質上還是一個二維物體。換句話說,它具備低的內在維度,這是咱們在「直覺」中已經接觸到的一個概念。若是咱們能以某種方式展開瑞士捲,咱們就能夠恢復到二維平面。這是非線性降維的目標,它假定流形比它所佔據的全維更簡單,並試圖展開它。機器學習
關鍵是,即便當大流形看起來複雜,每一個點周圍的局部鄰域一般能夠很好地近似於一片平坦的表面。換句話說,他們學習使用局部結構對全局結構進行編碼。非線性降維也被稱爲非線性嵌入,或流形學習。非線性嵌入可有效地將高維數據壓縮成低維數據。它們一般用於 2-D 或 3-D 的可視化。工具
然而,特徵工程的目的並非要使特徵維數儘量低,而是要達到任務的正確特徵。在這一章中,正確的特徵是表明數據空間特徵的特徵。學習
聚類算法一般不是局部結構化學習的技術。但事實上也能夠用他們這麼作。彼此接近的點(由數據科學家使用某些度量能夠定義的「接近度」)屬於同一個簇。給定聚類,數據點能夠由其聚類成員向量來表示。若是簇的數量小於原始的特徵數,則新的表示將比原始的具備更小的維度;原始數據被壓縮成較低的維度。編碼
與非線性嵌入技術相比,聚類能夠產生更多的特徵。可是若是最終目標是特徵工程而不是可視化,那這不是問題。spa
咱們將提出一個使用 k 均值聚類算法來進行結構化學習的思想。它簡單易懂,易於實踐。與非線性流體降維相反,k 均值執行非線性流形特徵提取更容易解釋。若是正確使用它,它能夠是特徵工程的一個強大的工具。翻譯
k 均值是一種聚類算法。聚類算法根據數據在空間中的排列方式來分組數據。它們是無監督的,由於它們不須要任何類型的標籤,使用算法僅基於數據自己的幾何形狀來推斷聚類標籤。
聚類算法依賴於 度量 ,它是度量數據點之間的緊密度的測量。最流行的度量是歐幾里德距離或歐幾里得度量。它來自歐幾里得幾何學並測量兩點之間的直線距離。咱們對它很熟悉,由於這是咱們在平常現實中看到的距離。