面向機器學習的特徵工程 7、非線性特徵提取和模型堆疊

時間 2019-12-07

標籤面向機器學習特徵工程非線性提取模型堆疊简体版

原文原文鏈接

7、非線性特徵提取和模型堆疊

來源：ApacheCN《面向機器學習的特徵工程》翻譯項目git

譯者：friedhelm739github

校對：（虛位以待）算法

當在數據一個線性子空間像扁平餅時 PCA 是很是有用的。可是若是數據造成更復雜的形狀呢？一個平面（線性子空間）能夠推廣到一個流形（非線性子空間），它能夠被認爲是一個被各類拉伸和滾動的表面。apache

若是線性子空間是平的紙張，那麼捲起的紙張就是非線性流形的例子。你也能夠叫它瑞士捲。（見圖 7-1），一旦滾動，二維平面就會變爲三維的。然而，它本質上還是一個二維物體。換句話說，它具備低的內在維度，這是咱們在「直覺」中已經接觸到的一個概念。若是咱們能以某種方式展開瑞士捲，咱們就能夠恢復到二維平面。這是非線性降維的目標，它假定流形比它所佔據的全維更簡單，並試圖展開它。機器學習

關鍵是，即便當大流形看起來複雜，每一個點周圍的局部鄰域一般能夠很好地近似於一片平坦的表面。換句話說，他們學習使用局部結構對全局結構進行編碼。非線性降維也被稱爲非線性嵌入，或流形學習。非線性嵌入可有效地將高維數據壓縮成低維數據。它們一般用於 2-D 或 3-D 的可視化。工具

然而，特徵工程的目的並非要使特徵維數儘量低，而是要達到任務的正確特徵。在這一章中，正確的特徵是表明數據空間特徵的特徵。學習

聚類算法一般不是局部結構化學習的技術。但事實上也能夠用他們這麼作。彼此接近的點（由數據科學家使用某些度量能夠定義的「接近度」）屬於同一個簇。給定聚類，數據點能夠由其聚類成員向量來表示。若是簇的數量小於原始的特徵數，則新的表示將比原始的具備更小的維度；原始數據被壓縮成較低的維度。編碼

與非線性嵌入技術相比，聚類能夠產生更多的特徵。可是若是最終目標是特徵工程而不是可視化，那這不是問題。spa

咱們將提出一個使用 k 均值聚類算法來進行結構化學習的思想。它簡單易懂，易於實踐。與非線性流體降維相反，k 均值執行非線性流形特徵提取更容易解釋。若是正確使用它，它能夠是特徵工程的一個強大的工具。翻譯

k 均值聚類

k 均值是一種聚類算法。聚類算法根據數據在空間中的排列方式來分組數據。它們是無監督的，由於它們不須要任何類型的標籤，使用算法僅基於數據自己的幾何形狀來推斷聚類標籤。

聚類算法依賴於度量，它是度量數據點之間的緊密度的測量。最流行的度量是歐幾里德距離或歐幾里得度量。它來自歐幾里得幾何學並測量兩點之間的直線距離。咱們對它很熟悉，由於這是咱們在平常現實中看到的距離。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。