監督式學習和非監督式學習

最近接手一個nlp項目，其中一個部分是經過訓練非監督式學習，來提供給模型進行訓練算法

因此學習了下監督式學習和非監督式學習機器學習

1.什麼是監督式學習：

定義： 根據已有的數據集，知道輸入和輸出結果之間的關係。根據這種已知的關係，訓練獲得一個最優的模型。也就是說，在監督學習中訓練數據 既有特徵(feature)又有標籤(label)，經過訓練，讓機器能夠本身找到特徵和標籤之間的聯繫，在面對只有特徵沒有標籤的數據時，能夠判斷出標籤。

實際應用中的機器學習在大部分狀況下咱們都會使用監督式學習。函數

監督式學習指的是你擁有一個輸入變量和一個輸出變量，使用某種算法去學習從輸入到輸出的映射函數學習

這種學習方式就稱之爲監督式學習，由於算法學習從訓練數據集學習的過程能夠被當作相似於一名教師在監督學習學習的過程。咱們已經知道了正確的答案，而算法不斷迭代來對訓練數據作出預測同時不斷被一名教師修正。當算法達到一個可接受程度的表現時學習過程中止。spa

監督式學習問題能夠進一步被分爲迴歸和分類問題class

分類:分類問題指的是當輸出變量屬於一個範疇，好比「紅色」和「藍色」或者「生病」和「未生病」。
迴歸:迴歸問題指的是輸出變量是一個實值，好比「價格」和「重量」

2.非監督式機器學習

定義：咱們不知道數據集中數據、特徵之間的關係，而是要根據聚類或必定的模型獲得數據之間的關係。變量

能夠這麼說，比起監督學習，無監督學習更像是自學，讓機器學會本身作事情，是沒有標籤（label）的。技術

非監督式學習指的是咱們只擁有輸入變量可是沒有相關的輸出變量。數據

非監督式學習的目標是對數據中潛在的結構和分佈建模，以便對數據做更進一步的學習。項目

這種學習方式就稱爲非監督式學習，由於其和監督式學習不一樣，對於學習並無確切的答案和學習過程也沒有教師監督。算法獨自運行以發現和表達數據中的有意思的結構。

非監督式學習問題能夠進一步分爲聚類問題和關聯問題

聚類問題：聚類學習問題指的是咱們想在數據中發現內在的分組，好比以購買行爲對顧客進行分組。
關聯問題：關聯問題學習問題指的是咱們想發現數據的各部分之間的聯繫和規則，例如購買X物品的顧客也喜歡購買Y物品。

半監督式機器學習

當咱們擁有大部分的輸入數據可是隻有少部分的數據擁有標籤，這種情形稱爲半監督式學習問題

半監督式學習問題介於監督式和非監督式學習之間。這裏有一個好例子如：照片分類，可是隻有部分照片帶有標籤(如，狗、貓和人)，可是大部分照片都沒有標籤。

許多現實中的機器學習問題均可以概括爲這一類。由於對數據打標籤須要專業領域的知識，這是費時費力的。相反無標籤的數據和收集和存儲起來都是方便和便宜的。

咱們可使用非監督式學習的技術來發現和學習輸入變量的結構。

咱們也可使用監督式學習技術對無標籤的數據進行標籤的預測,把這些數據傳遞給監督式學習算法做爲訓練數據，而後使用這個模型在新的數據上進行預測。

這些都是簡單的概念，實際的應用還他要慢慢學習。

參考自：https://www.jianshu.com/p/682c88cee5a8

以及：https://www.jianshu.com/p/682c88cee5a8