【轉載】面試乾貨!21個必知數據科學麪試題和答案

本文爲數盟原創譯文,歡迎轉載,註明出處「數盟社區」便可html

KDnuggets編輯給你「20個問題來分辨真假數據科學家」的答案,包括什麼是正則化、咱們崇拜的數據科學家、模型驗證等等。面試

做者 Gregory Piatetsky, KDnuggets.算法

最近KDnuggets上發的「20個問題來分辨真假數據科學家」這篇文章很是熱門,得到了一月的閱讀量排行首位。apache

可是這些問題並無提供答案,因此KDnuggets的小編們聚在一塊兒寫出了這些問題的答案。我還加了一個特別提問——第21問,是20個問題裏沒有的。bootstrap

下面是答案。網絡

 

Q1.解釋什麼是正則化,以及它爲何有用。app

回答者:Matthew Mayoide

正則化是添加一個調優參數的過程模型來引導平滑以防止過擬合。(參加KDnuggets文章《過擬合》)函數

這一般是經過添加一個常數到現有的權向量。這個常數一般要麼是L1(Lasso)要麼是L2(ridge),但實際上能夠是任何標準。該模型的測算結果的下一步應該是將正則化訓練集計算的損失函數的均值最小化。工具

Xavier Amatriain在這裏向那些感興趣的人清楚的展現了L1和L2正則化之間的比較。

Regularization Lp Ball
1: Lp:p的值減小,相應的L-p空間的大小也會減小。

 

Q2.你最崇拜哪些數據科學家和創業公司?

回答者:Gregory Piatetsky

這個問題沒有標準答案,下面是我我的最崇拜的12名數據科學家,排名不分前後。

Data Scientist Admired

Geoff Hinton, Yann LeCun, 和 Yoshua Bengio-因他們對神經網絡的堅持不懈的研究,和開啓了當前深度學習的革命。

Demis Hassabis,因他在DeepMind的傑出表現——在Atari遊戲中實現了人或超人的表現和最近Go的表現。

來自datakind的Jake Porway和芝加哥大學DSSG的Rayid Ghani因他們讓數據科學對社會產生貢獻。

DJ Patil,美國第一首席數據科學家,利用數據科學使美國政府工做效率更高。

Kirk D. Borne,因其在大衆傳媒中的影響力和領導力。

Claudia Perlich,因其在廣告生態系統的貢獻,和做爲kdd-2014的領頭人。

Hilary Mason在Bitly傑出的工做,和做爲一個大數據的明星激發他人。

Usama Fayyad,展現了其領導力,爲KDD和數據科學設立了高目標,這幫助我和成千上萬的人不斷激勵本身作到最好。

Hadley Wickham,因他在數據科學和數據可視化方面的出色的成果,包括dplyr,ggplot2,和RStudio。

數據科學領域裏有太多優秀的創業公司,但我不會在這裏列出它們,以免利益衝突。

 

Q3.如何驗證一個用多元迴歸生成的對定量結果變量的預測模型。

回答者:Matthew Mayo

模型驗證方法:

若是模型預測的值遠遠超出響應變量範圍,這將當即顯示較差的估計或模型不許確。

若是值看似是合理的,檢查參數;下列狀況表示較差估計或多重共線性:預期相反的跡象,不尋常的或大或小的值,或添加新數據時觀察到不一致。

利用該模型預測新的數據,並使用計算的係數(平方)做爲模型的有效性措施。

使用數據拆分,以造成一個單獨的數據集,用於估計模型參數,另外一個用於驗證預測。

若是數據集包含一個實例的較小數字,用對摺從新採樣,測量效度與R平方和均方偏差(MSE)。

 

Q4.解釋準確率和召回率。它們和ROC曲線有什麼關係?

回答者:Gregory Piatetsky

這是kdnuggets常見問題的答案:精度和召回

計算精度和召回其實至關容易。想象一下10000例中有100例負數。你想預測哪個是積極的,你選擇200個以更好的機會來捕捉100個積極的案例。你記錄下你預測的ID,當你獲得實際結果時,你總結你是對的或錯的。如下是正確或錯誤的四種可能:

TN/真負數:例負數且預測負數

TP/真正數:例正數且預測正數

FN/假負數:例負數可是預測負數

FP/假正數:例負數可是預測正數

意義何在?如今你要計算10000個例子中有多少進入了每個bucket:

QQ截圖20160229162834

如今,你的僱主會問你三個問題:

1.你的預測正確率有幾成?

你回答:確切值是(9760+60)除以10000=98.2%

2.你得到正值的例子佔多少比例?

你回答:召回比例爲60除以100=60%

3.正值預測的百分比多少?

你回答:精確值是60除以200=30%

 

看一個維基上的精度和召回的優秀範例。

Precision Recall Relevant Selected

圖4.精度和召回

ROC曲線表明了靈敏度(召回)與特異性(不許確)之間的關係,經常使用來衡量二元分類的性能。然而,在處理高傾斜度的數據集的時候,精度-召回(PR)曲線給出一個更具表明性的表現。見Quora回答:ROC曲線和精度-召回曲線之間的區別是什麼?。

 

Q5.如何證實你對一個算法的改進確實比什麼都不作更好?

回答者:Anmol Rajpurohit. .

咱們會在追求快速創新中(又名「快速成名」)常常看到,違反科學方法的原則致使誤導性的創新,即有吸引力的觀點卻沒有通過嚴格的驗證。一個這樣的場景是,對於一個給定的任務:提升算法,產生更好的結果,你可能會有幾個關於潛在的改善想法。

人們一般會產生的一個明顯衝動是儘快公佈這些想法,並要求儘快實施它們。當被問及支持數據,每每是共享的是有限的結果,這是頗有可能受到選擇誤差的影響(已知或未知)或一個誤導性的全局最小值(因爲缺少各類合適的測試數據)。

數據科學家不讓本身的情緒操控本身的邏輯推理。可是確切的方法來證實你對一個算法的改進確實比什麼都不作更好將取決於實際狀況,有幾個共同的指導方針:

確保性能比較的測試數據沒有選擇誤差

確保測試數據足夠,以成爲各類真實性的數據的表明(有助於避免過擬合)

確保「受控實驗」的原則,即在比較運行的原始算法和新算法的表現的時候,性能、測試環境(硬件等)方面必須是徹底相同的。

確保結果是可重複的,當接近相似的結果出現的時候

檢查結果是否反映局部極大值/極小值或全局極大值/最小值

來實現上述方針的一種常見的方式是經過A/B測試,這裏面兩個版本的算法是,在隨機分割的二者之間不停地運行在相似的環境中的至關長的時間和輸入數據。這種方法是特別常見的網絡分析方法。

 

Q6.什麼是根本緣由分析?

回答者:Gregory Piatetsky

根據維基百科,

根本緣由分析(RCA)是一種用於識別錯誤或問題的根源的解決方法。一個因素若是從problem-fault-sequence的循環中刪除後,阻止了最終的不良事件重複出現,則被認爲是其根源;而一個因果因素則影響一個事件的結果,但不其是根本緣由。

根本緣由分析最初用於分析工業事故,但如今普遍應用於其餘領域,如醫療、項目管理、軟件測試。

這是一個來自明尼蘇達州的實用根本緣由分析工具包。

本質上,你能夠找到問題的根源和緣由的關係反覆問「爲何」,直到找到問題的根源。這種技術一般被稱爲「5個爲何」,當時涉及到的問題可能比5個更少或更多。

5 Whys

圖  5個爲何分析實例,來自《根本緣由分析的藝術》

 

Q7.你是否熟悉價格優化、價格彈性、庫存管理、競爭情報?舉例說明。

回答者:Gregory Piatetsky

這些問題屬於經濟學範疇,不會常常用於數據科學家面試,可是值得了解。

價格優化是使用數學工具來肯定客戶會如何應對不一樣渠道產品和服務的不一樣價格。

大數據和數據挖掘使得個性化的價格優化成爲可能。如今像亞馬遜這樣的公司甚至能夠進一步優化,對不一樣的遊客根據他們的購買歷史顯示不一樣的價格,儘管有強烈的爭論這否公平。

 

一般所說的價格彈性是指

需求的價格彈性,價格敏感性的衡量。它的計算方法是:

需求的價格彈性=需求量變更%÷價格變更%。

 

一樣,供應的價格彈性是一個經濟衡量標準,顯示了產品或服務的變化如何響應價格變化。

 

庫存管理是一個企業在生產過程當中使用的產品的訂購、儲存和使用的監督和控制,它將銷售的產品和銷售的成品數量進行監督和控制。

維基百科定義

競爭情報:定義、收集、分析和分發有關產品、客戶、競爭對手和所需環境的任何方面的情報,以支持管理人員和管理者爲組織作出戰略決策的環境。

像Google Trends, Alexa, Compete這樣的工具能夠用來肯定趨勢和分析你的競爭對手的網站。

下面是一些有用的資源:

競爭情報的報告指標,by Avinash Kaushik

37款監視你的競爭對手的最好的營銷工具from KISSmetrics

來自10位專家的10款最佳競爭情報工具

8.什麼是統計檢定力?

回答者:Gregory Piatetsky

維基百科定義二元假設檢驗的統計檢定力或靈敏度爲測試正確率拒絕零假設的機率(H0)在備擇假設(H1)是真的。

換句話說,統計檢定力是一種可能性研究,研究將檢測到的效果時效果爲本。統計能力越高,你就越不可能犯第二類錯誤(結論是沒有效果的,然而事實上有)。

這裏有一些工具來計算統計功率。

9.解釋什麼是重抽樣方法和它們爲何有用。並說明它們的侷限。

回答者:Gregory Piatetsky

經典的統計參數檢驗比較理論抽樣分佈。重採樣的數據驅動的,而不是理論驅動的方法,這是基於相同的樣本內重複採樣。

重採樣指的是這樣作的方法之一

估計樣本統計精度(中位數、方差、百分位數)利用可用數據的子集(摺疊)或隨機抽取的一組數據點置換(引導)

在進行意義測試時,在數據點上交換標籤(置換測試),也叫作精確測試,隨機測試,或是再隨機測試)

利用隨機子集驗證模型(引導,交叉驗證)

維基百科裏關於bootstrappingjackknifing. 。

How to Check Hypotheses with Bootstrap and Apache Spark

Bootstrap and Spark

這裏是一個很好的概述重採樣統計。

10.有太多假陽性或太多假陰性哪一個相比之下更好?說明緣由。

回答者:Devendra Desale

這取決於問題自己以及咱們正在試圖解決的問題領域。

在醫學檢驗中,假陰性可能會給病人和醫生提供一個虛假的安慰,表面上看它不存在的時候,它其實是存在的。這有時會致使不恰當的或不充分的治療病人和他們的疾病。所以,人們會但願但願有不少假陽性。

對於垃圾郵件過濾,當垃圾郵件過濾或垃圾郵件攔截技術錯誤地將一個合法的電子郵件信息歸類爲垃圾郵件,並影響其投遞結果時,會出現假陽性。雖然大多數反垃圾郵件策略阻止和過濾垃圾郵件的比例很高,排除沒有意義假陽性結果是一個更艱鉅的任務。因此,咱們更傾向於假陰性而不是假陽性。

11。什麼是選擇誤差,爲何它是重要的,你如何避免它?

回答者:Matthew Mayo

選擇誤差,通常而言,是因爲一個非隨機羣體樣本形成的問題。例如,若是一個給定的樣本的100個測試案例是一個60 / 20/ 15/ 5的4個類,實際上發生在在羣體中相對相等的數字,那麼一個給定的模型可能會形成錯誤的假設,機率可能取決於預測因素。避免非隨機樣本是處理選擇誤差最好的方式,可是這是不切實際的。能夠引入技術,如從新採樣,和提升權重的策略,以幫助解決問題。

特別提問:解釋什麼是過擬合,你如何控制它

這個問題不是20問裏面的,可是多是最關鍵的一問來幫助你分辨真假數據科學家!

回答者:Gregory Piatetsky

 

過擬合是指(機器)學習到了因偶然形成而且不能被後續研究複製的的虛假結果。

 

咱們常常看到報紙上的報道推翻以前的研究發現,像雞蛋再也不對你的健康有害,或飽和脂肪與心臟病無關。這個問題在咱們看來是不少研究人員,特別是社會科學或醫學領域的,常常犯下的數據挖掘的基本錯誤——過分擬合數據。

 

研究人員了測試太多假設而沒有適當的統計控制,因此他們會碰巧發現一些有趣的事情和報告。不足爲奇的是,下一次的效果,因爲(至少一部分是)偶然緣由,將再也不明顯或不存在。

 

這些研究實踐缺陷被肯定,由約翰·p·a·埃尼迪斯的在他的里程碑式的論文《爲何大多數發表的研究成果是錯誤的》(《公共科學圖書館·醫學》雜誌,2005年)中發表出來。埃尼迪斯發現,結果每每是被誇大的或不能被複制。在他的論文中,他提出了統計證據,事實上大多數聲稱的研究成果都是虛假的。

 

埃尼迪斯指出,爲了使研究結果是可靠的,它應該有:

大型的樣本和大量的結果

測試關係的數量更多,選擇更少

在設計,定義,結果和分析模式幾個方面有更大的靈活性

最小化誤差,依資金預算和其餘因素考量(包括該科學領域的普及程度)

 

不幸的是,這些規則經常被違反,致使了不少不能再現的結果。例如,標準普爾500指數被發現與孟加拉國的黃油生產密切相關(從1981年至1993年)(這裏是PDF)

S&P 500 correlates to butter in Bangladesh

若想看到更多有趣的(包括徹底虛假)的結果,您可使用一些工具,如谷歌的correlate或Tyler Vigen的Spurious correlations。

 

可使用幾種方法來避免數據過擬合

試着尋找最簡單的假設

正規化(爲複雜性添加一種處罰)

隨機測試(使變量隨機化,在這個數據上試試你的方法——若是它發現徹底相同的結果,確定有哪裏出錯了)

嵌套交叉驗證(在某種程度上作特徵選擇,而後在交叉驗證外層運行整個方法)

調整錯誤發現率

使用2015年提出的一個突破方法——可重複使用的保持法

好的數據科學是對世界理解的前沿科學,數據科學家的責任是避免過分擬合數據,並教育公衆和媒體關於錯誤數據分析的危險性。

 

另請參閱

數據挖掘和數據科學的大缺陷:過分擬合

一個避免過分擬合的超級想法: 在自適應數據分析中可重複使用的保持法

可重複使用的保持法克服過分擬合:保護自適應數據分析的有效性

11種過分擬合的「聰明方法」以及如何避免它們

標籤:過分擬合

 

Q12. 舉例說明如何使用實驗設計回答有關用戶行爲的問題。

回答者:Bhavya Geethika. 

步驟1.制定研究問題

頁面加載時間對用戶滿意度評級的影響有哪些?

 

步驟2.肯定變量

咱們肯定緣由和結果。獨立變量——頁面加載時間,非獨立變量——用戶滿意評級

 

步驟3.生成假說

減小頁面下載時間可以影響到用戶對一個網頁的滿意度評級。在這裏,咱們分析的因素是頁面加載時間。

Flaw in Experimental Design

圖12.一個有缺陷的實驗設計(漫畫)

 

步驟4.肯定實驗設計

咱們考量實驗的複雜性,也就是說改變一個因素或多個因素,同時在這種狀況下,咱們用階乘設計(2^k設計)。選擇設計也是基於目標的類型(比較、篩選、響應面)和許多其餘因素。

在這裏咱們也肯定包含參與者/參與者之間及兩者混合模型。如,有兩個版本的頁面,一個版本的購買按鈕(行動呼籲)在左邊,另外一個版本的在右邊。

包含參與者設計——全部用戶組看到兩個版本

參與者之間設計——一組用戶看到版本A,娶她用戶組看到版本B。

 

步驟5.開發實驗任務和過程:

詳細描述實驗的步驟、用於測量用戶行爲的工具,並制定目標和成功標準。收集有關用戶參與度的定性數據,以便統計分析。

 

步驟6.肯定操做步驟和測量標準

操做:一個因素的級別將被控制,其餘的將用於操做,咱們還要肯定行爲上的標準:

在提示和行爲發生之間的持續時間(用戶點擊購買了產品花了多長時間)。

頻率-行爲發生的次數(用戶點擊次數的一個給定的頁面在一個時間)

持續-特定行爲持續時間(添加全部產品的時間)

程度-行爲發生時的強烈的衝動(用戶購買商品有多快)

 

步驟7:分析結果

識別用戶行爲數據,假說成立,或根據觀察結果反駁例子:用戶滿意度評級與頁面加載時間的比重是多少。

 

Q13「長」數據和「寬」數據有什麼不一樣之處?

回答者:Gregory Piatetsky

在大多數數據挖掘/數據科學應用記錄(行)比特性(列)更多——這些數據有時被稱爲「高」(或「長」)的數據。

 

在某些應用程序中,如基因組學和生物信息學,你可能只有一個小數量的記錄(病人),如100,或許是20000爲每一個病人的觀察。爲了「高」工做數據的標準方法將致使過分擬合數據,因此須要特殊的方法。

Wide Data Tall Data

圖13.對於高數據和寬數據不一樣的方法,與表示稀疏篩查確切數據簡化,by Jieping Ye。

問題不只僅是重塑數據(這裏是有用的R包),還要避免假陽性,經過減小特徵找到最相關的數據。

套索等方法減小特性和稀疏覆蓋在統計學習:套索和歸納,由Hastie Tibshirani,Wainwright。(你能夠免費下載PDF的書)索等方法減小特性,在「統計學習稀疏」中很好地包含了:《套索和歸納》by Hastie, Tibshirani, and Wainwright(你能夠免費下載PDF的書)

 

 

Q14你用什麼方法肯定一篇文章(好比報紙上的)中公佈的統計數字是錯誤的或者是爲了支持做者觀點,而不是關於某主題正確全面的事實信息?

一個簡單的規則,由Zack Lipton建議的:若是一些統計數據發表在報紙上,那麼它們是錯的。這裏有一個更嚴重的答案,來自Anmol Rajpurohit:每個媒體組織都有目標受衆。這個選擇很大地影響着決策,如這篇文章的發佈、如何縮寫一篇文章,一篇文章強調的哪一部分,如何敘述一個給定的事件等。

肯定發表任何文章統計的有效性,第一個步驟是檢查出版機構和它的目標受衆。即便是相同的新聞涉及的統計數據,你會注意到它的出版很是不一樣,在福克斯新聞、《華爾街日報》、ACM/IEEE期刊都不同。所以,數據科學家很聰明的知道在哪裏獲取消息(以及歷來源來判斷事件的可信度!)。

Misleading chart on Fox News: if Bush tax cuts expire

圖14a:福克斯新聞上的一個誤導性條形圖的例子

Objective chart: if Bush tax cuts expire

圖14b:如何客觀地呈現相同的數據 來自5 Ways to Avoid Being Fooled By Statistics

做者常常試圖隱藏他們研究中的不足,經過精明的講故事和省略重要細節,跳到提出誘人的錯誤看法。所以,用拇指法則肯定文章包含誤導統計推斷,就是檢查這篇文章是否包含了統計方法,和統計方法相關的選擇上的細節限制。找一些關鍵詞如「樣本」「偏差」等等。雖然關於什麼樣的樣本大小或偏差是合適的沒有完美的答案,但這些屬性必定要在閱讀結果的時候牢記。

 

首先,一篇可靠的文章必須沒有任何未經證明的主張。全部的觀點必須有過去的研究的支持。不然,必須明確將其區分爲「意見」,而不是一個觀點。其次,僅僅由於一篇文章是著名的研究論文,並不意味着它是使用適當的研究方向的論文。這能夠經過閱讀這些稱爲研究論文「所有」,和獨立判斷他們的相關文章來驗證。最後,雖然最終結果可能看起來是最有趣的部分,可是一般是致命地跳過了細節研究方法(和發現錯誤、誤差等)。

 

理想狀況下,我但願全部這類文章都發表他們的基礎研究數據方法。這樣,文章能夠實現真正的可信,每一個人均可以自由分析數據和應用研究方法,本身得出結果。

 

Q15解釋Edward Tufte「圖表垃圾」的概念。

回答者:Gregory Piatetsky

圖標垃圾指的是全部的圖表和圖形視覺元素沒有充分理解表示在圖上的信息,或者沒有引發觀看者對這個信息的注意。

圖標垃圾這個術語是由Edward Tufte在他1983年的書《定量信息的視覺顯示》裏提出的。

Tufte Chartjunk

圖15所示。Tufte寫道:「一種無心的Necker錯覺,兩個平面翻轉到前面。一些金字塔隱藏其餘;一個變量(愚蠢的金字塔的堆疊深度)沒有標籤或規模。」

An example of Chartjunk

圖標垃圾的更現代的例子,很難理解excel使用者畫出的柱狀圖,由於「工人」和「起重機」掩蓋了他們。

這種裝飾的問題是,他們迫使讀者更加困難而非必要地去發現數據的含義。

 

Q16你會如何篩查異常值?若是發現它會怎樣處理?

回答者:Bhavya Geethika.

篩選異常值的方法有z-scores, modified z-score, box plots, Grubb’s test,Tietjen-Moore測試指數平滑法,Kimber測試指數分佈和移動窗口濾波算法。然而比較詳細的兩個方法是:
Inter Quartile Range
An outlier is a point of data that lies over 1.5 IQRs below the first quartile (Q1) or above third quartile (Q3) in a given data set.

  • High = (Q3) + 1.5 IQR
  • Low = (Q1) – 1.5 IQR

Tukey Method

It uses interquartile range to filter very large or very small numbers. It is practically the same method as above except that it uses the concept of 「fences」. The two values of fences are:

  • Low outliers = Q1 – 1.5(Q3 – Q1) = Q1 – 1.5(IQR)
  • High outliers = Q3 + 1.5(Q3 – Q1) = Q3 + 1.5(IQR)

在這個區域外的任何值都是異常值

當你發現異常值時,你不該該不對它進行一個定性評估就刪除它,由於這樣你改變了數據,使其再也不純粹。重要的是要在理解分析的背景下或者說重要的是「爲何的問題——爲何異常值不一樣於其餘數據點?」

這個緣由是相當重要的。若是歸因於異常值錯誤,你可能把它排除,但若是他們意味着一種新趨勢、模式或顯示一個有價值的深度數據,你應該保留它。

 

 

Q17如何使用極值理論、蒙特卡洛模擬或其餘數學統計(或別的什麼)正確估計很是罕見事件的可能性?

回答者:Matthew Mayo.

極值理論(EVT)側重於罕見的事件和極端,而不是經典的統計方法,集中的平均行爲。EVT的州有3種分佈模型的極端數據點所須要的一組隨機觀察一些地理分佈:Gumble,f,和威布爾分佈,也稱爲極值分佈(EVD)一、2和3分別。

EVT的狀態,若是你從一個給定的生成N數據集分佈,而後建立一個新的數據集只包含這些N的最大值的數據集,這種新的數據集只會準確地描述了EVD分佈之一:耿貝爾,f,或者威布爾。廣義極值分佈(GEV),而後,一個模型結合3 EVT模型以及EVD模型。

知道模型用於建模數據,咱們可使用模型來適應數據,而後評估。一旦發現最好的擬合模型,分析其執行,包括計算的可能性。

 

Q18推薦引擎是什麼?它如何工做?

回答者:Gregory Piatetsky

如今咱們很熟悉Netflix——「你可能感興趣的電影」或亞馬遜——購買了X產品的客戶還購買了Y的推薦。

Other Movies you might enjoy

你可能感興趣的電影

這樣的系統被稱爲推薦引擎或普遍推薦系統。

他們一般如下兩種方式之一產生推薦:使用協做或基於內容的過濾。

基於用戶的協同過濾方法構建一個模型過去的行爲(之前購買物品,電影觀看和評級等)並使用當前和其餘用戶所作的決定。而後使用這個模型來預測(或評級)用戶可能感興趣的項目。

基於內容的過濾方法使用一個項目的特色推薦額外的具備相似屬性的物品。這些方法每每結合混合推薦系統。

這是一個比較,當這兩種方法用於兩個流行音樂推薦系統——Last.fm 和 Pandora Radio。(以系統推薦條目爲例)

Last.fm建立一個「站」推薦的歌曲經過觀察樂隊和我的按期跟蹤用戶聽和比較這些聽其餘用戶的行爲。最後一次。fm會跟蹤不出如今用戶的圖書館,但一般是由其餘有類似興趣的用戶。這種方法充分利用了用戶的行爲,它是一個協同過濾技術。

Pandora用一首歌的屬性或藝術家(400年的一個子集屬性提供的音樂基因工程)以設定具備相似屬性的「站」,播放音樂。用戶的反饋用來提煉的結果,排除用戶「不喜歡」特定的歌曲的某些屬性和強調用戶「喜歡」的歌的其餘屬性。這是一個基於內容的方法。

這裏有一些很好的介紹Introduction to Recommendation Engines by Dataconomy 和an overview of building a Collaborative Filtering Recommendation Engine by Toptal。關於推薦系統的最新研究,點擊ACM RecSys會議。

 

Q19解釋什麼是假陽性和假陰性。爲何區分它們很是重要?

回答者:Gregory Piatetsky

在二進制分類(或醫療測試)中,假陽性是當一個算法(或測試)知足的條件,在現實中不知足。假陰性是當一個算法(或測試)代表不知足一個條件,但實際上它是存在的。

在統計中,假設檢驗出假陽性,也被稱爲第一類偏差和假陰性- II型錯誤。

區分和治療不一樣的假陽性和假陰性顯然是很是重要的,由於這些錯誤的成本不同。

例如,若是一個測試測出嚴重疾病是假陽性(測試說有疾病,但人是健康的),而後經過一個額外的測試將會肯定正確的診斷。然而,若是測試結果是假陰性(測試說健康,可是人有疾病),而後患者可能會所以死去。

 

Q20你使用什麼工具進行可視化?你對Tableau/R/SAS(用來做圖)有何見解?如何有效地在一幅圖表(或一個視頻)中表示五個維度?

回答者:Gregory Piatetsky

有不少優秀的數據可視化工具。R,Python,Tableau和Excel數據科學家是最經常使用的。

這裏是有用的KDnuggets資源:

可視化和數據挖掘軟件

Python可視化工具的概述

21個基本數據可視化工具

前30名的社交網絡分析和可視化工具

標籤:數據可視化

有不少方法能夠比二維圖更好。第三維度能夠顯示一個三維散點圖,能夠旋轉。您能夠操控顏色、材質、形狀、大小。動畫能夠有效地用於顯示時間維度(隨時間變化)。

這是一個很好的例子。

5-dimensional scatter plot of iris data

圖20:五維虹膜數據的散點圖,尺寸:花萼長度;顏色:萼片寬;形狀:類;x-column:花瓣長度;y-column:花瓣寬度。

從5個以上的維度,一種方法是平行座標,由Alfred Inselberg首先提出。

圖20 b:平行座標裏的虹膜數據

另請參閱

Quora:高維數據可視化的最好方法是什麼?

喬治·格林斯和他的同事們在High-Dimensional Visualizations 的開創性工做。

固然,當你有不少的維度的時候,最好是先減小維度或特徵。

原文連接:http://www.kdnuggets.com/2016/02/21-data-science-interview-questions-answers-part2.html

相關文章
相關標籤/搜索