算法問題

時間 2019-12-14

標籤算法問題简体版

原文原文鏈接

1.無監督和有監督算法的區別？表明性算法有哪些？

有監督學習：對具備標記的訓練樣本進行學習，以儘量對訓練樣本集外的數據進行分類預測。
無監督學習：對未標記的樣本進行訓練學習，以發現這些樣本中的結構知識。

2. 什麼是線性迴歸、邏輯迴歸、樸素貝葉斯

注意：邏輯迴歸和樸素貝葉斯是重點，線性迴歸更多用於數據分析崗位。算法

邏輯迴歸要點：邏輯迴歸是經過sigmoid函數使損失函數達到最小或者是似然函數達到最大經過相應的優化算法求出其中的參數值實現分類。（什麼優化算法：瞭解過梯度降低的原理實現，sklearn包裏solver中有個能夠設置選擇哪一個優化算法：lbfs、liblinear……）機器學習

樸素貝葉斯要點：貝葉斯算法是經過先驗機率去得出後驗機率的過程，先驗即經驗或者說是經過歷史的大量數據得出的相關機率值，最終獲得後驗機率作出分類。函數

3. LR和線性迴歸的區別和聯繫？

邏輯迴歸以線性迴歸爲理論支持。但線性迴歸模型沒法作到sigmoid的非線性形式，sigmoid能夠輕鬆處理0/1分類問題。post

邏輯迴歸：迭代求解學習

線性迴歸：直接求解大數據

4.LR和樸素貝葉斯有什麼聯繫和區別？爲何樸素貝葉斯如此「樸素」？

均可以處理分類問題，可是LR是讓損失函數最小求解參數值，可用於推薦，樸素貝葉斯是基於特徵之間相互獨立的假設，更多用於文本分類。且數據量小的時候更多用樸素貝葉斯優化

由於它假定全部的特徵在數據集中的做用是一樣重要和獨立的。正如咱們所知，這個假設在現實世界中是很不真實的，所以，說樸素貝葉斯真的很「樸素」搜索引擎

5. 什麼是梯度降低？

要點：一種優化算法，經過迭代的方式使得目標函數或損失函數最小時求解相關參數值orm

涉及到的梯度降低相關知識：blog

（1）隨機梯度降低

優勢：能夠必定程度上解決局部最優解的問題

缺點：收斂速度較慢

（2）批量梯度降低

優勢：容易陷入局部最優解

缺點：收斂速度較快

（3）mini_batch梯度降低

綜合隨即梯度降低和批量梯度降低的優缺點，提取的一箇中和的方法。

6.如何處理缺失值數據：

要點：處理的方法有兩種，一種是刪除整行或者整列的數據，另外一種則是使用其餘值去填充這些缺失值。

在Pandas庫，有兩種頗有用的函數用於處理缺失值：isnull()和dropna()函數能幫助咱們找到數據中的缺失值而且刪除它們。若是你想用其餘值去填充這些缺失值，則能夠是用fillna()函數。

7.什麼是數據標準化，爲何要進行數據標準化？

要點：數據標準化是預處理步驟，將數據標準化到一個特定的範圍。

（將該值將去平均值後再除以標準差）。

要點：數據標準化可使得每一個特徵的重要性更加均衡。

若是不進行數據標準化，有些特徵（值很大）將會對損失函數影響更大（就算這個特別大的特徵只是改變了1%，可是他對損失函數的影響仍是很大，並會使得其餘值比較小的特徵變得不重要了）。

8.你有一些和機器學習相關的項目嗎

對於這個問題，你能夠從你作過的研究與他們公司的業務之間的聯繫上做答。你所學到的技能是否有一些可能與他們公司的業務或你申請的職位有關？不須要是100％相吻合的，只要以某種方式相關就能夠。這樣有助於讓他們認爲你能夠在這個職位上所產生的更大價值。

9.接觸過推薦嗎？知道推薦系統主要分爲那兩個方面嗎？

基於內容的推薦和協同過濾推薦。

10.過擬合和欠擬合是什麼？如何解決過擬合？

underfitting和overfitting的成因都是模型的複雜度和分類的關係。若是模型很簡單，可是要分的類型不少就會產生欠擬合。好比要求用一條直線將數據分紅10類。反之若是模型很複雜，可是分類很簡單，就容易產生過擬合。（好比，有一個複雜度很高的非線性分類器，用來分類貓和狗。訓練久了之後，可能會出現有幾個長得像狗的貓和長得像貓的狗的個例都能被正確分類了。這時候你的模型極可能已通過擬合了，由於訓練成這樣的模型在遇到新的數據的時候，將樣本錯誤分類的可能性很大。）

重點是過擬合

所謂過擬合（Overfit），是這樣一種現象：一個假設在訓練數據上可以得到比其餘假設更好的擬合，可是在訓練數據外的數據集上卻不能很好的擬合數據。此時咱們就叫這個假設出現了overfit的現象。

過擬合產生的緣由：出現這種現象的主要緣由是訓練數據中存在噪音或者訓練數據太少。

解決方法：

一、增大數據量

二、減小feature個數（人工定義留多少個feature或者算法選取這些feature）

三、正則化（留下全部的feature，但對於部分feature定義其parameter很是小）

四、交叉驗證，重採樣評價模型效能，K折交叉驗證

五、保留一個驗證數據集檢驗

10. tf-idf用過嗎？它的公式？

要點：TFIDF其實是：TF * IDF，一個TF，一個IDF

詞頻（term frequency，TF）指的是某一個給定的詞語在該文件中出現的頻率（一詞語出現的次數除以該文件的總詞語數）。

逆向文件頻率（inverse document frequency，IDF）是一個詞語廣泛重要性的度量。某一特定詞語的IDF，能夠由總文件數目除以包含該詞語之文件的數目。

假如一篇文件的總詞語數是100個，而詞語「母牛」出現了3次，那麼「母牛」一詞在該文件中的詞頻就是3/100=0.03。一個計算文件頻率 (IDF) 的方法是文件集裏包含的文件總數除以測定有多少份文件出現過「母牛」一詞。因此，若是「母牛」一詞在1,000份文件出現過，而文件總數是10,000,000份的話，其逆向文件頻率就是 lg(10,000,000 / 1,000)=4。最後的TF-IDF的分數爲0.03 * 4=0.12。

11. LR和SVM的區別和聯繫？

要點：聯繫，都是分類算法，

若是不考慮核函數，LR和SVM都是線性分類算法，也就是說他們的分類決策面都是線性的。

要點：損失函數不一樣，

SVM 只考慮局部的邊界線附近的點，LR 考慮全局，遠離的點對邊界線的肯定也起做用

在解決非線性問題時，SVM 採用核函數的機制，而 LR 一般不採用核函數的方法

線性 SVM 依賴數據表達的距離測度，因此須要先對數據作 normalization, LR 則不受影響。

12.對於處理的數據如何進行分詞？

使用Jieba進行中文分詞Jieba分詞支持三種分詞模式：精確模式，試圖將句子最精確地切開，適合文本分析；全模式，把句子中全部的能夠成詞的詞語都掃描出來, 速度很是快，可是不能解決歧義；搜索引擎模式，在精確模式的基礎上，對長詞再次切分，提升召回率，適合用於搜索引擎分詞使用停用詞庫屏蔽停用詞。