分辨真假數據科學家的20個問題及回答

分辨真假數據科學家的20個問題及回答

2016-11-14 大數據文摘



【導語】本文分爲兩個部分,第一部分是quora上很火的一篇問答--【20個分辨真假數據科學家的問題】中讚揚數最高的回答,第二部分則是KDnuggets閱讀量很是高的一篇文章【KDnuggets編輯們針對這20個問題給出的回答】。前者由大數據文摘團隊選稿翻譯校對後,呈如今各位讀者面前。後者受權轉載自計算廣告(Comp_Ad)譯者白雪、龍星鏢局,原載於KDnuggets。本次將分散於不一樣地址的相關資源整合推送,但願更有利於有興趣讀者的學習,別忘了【評論區】給咱們留言你的體會、收穫、以及建議喔!算法

 

◆ ◆ ◆

分辨真假數據科學家的20個問題數據庫

 

在讀答案以前,先來看看這20個問題,並試着本身做答。回答可能包含有數學公式或少許代碼(R, Python, SQL等),而不僅是泛泛而談的模糊內容。bootstrap

 

或許你能夠試着把「我不知道,但我能夠從閱讀如下內容開始……」做爲你答案的一部分,由於這也是在測試候選人的誠實與正直。一家組織最不想要的人就是那些誇張本身的能力或純粹胡編亂造的虛假人才。api

 

(我留意到回覆中關於這一點的討論很火熱):網絡

這些問題都不是最終的或是具有表明性的問題,只是基於我本身專業領域提出來的。這些是問題的原型,使用時應該在此基礎上進行編輯和改進。若針對你一般處理的數據類型,你須要在問題中加上更多細節描述。app

 

  1. 解釋什麼是正規化(regularization)以及它的用處。解釋特定方法的優劣勢,如嶺迴歸(ridge regression)和LASSO算法?dom

  2. 解釋什麼是局部優化(local optimum)以及爲何它在特定狀況,如K均值聚類,是很重要的。具體有哪些方法能肯定你是否是真的遇到了局部優化問題?用什麼方法能夠避免局部最優解?ide

  3. 假設你須要使用屢次迴歸來爲一個定量分析結果中的變量創建預測模型,請解釋你將如何來驗證該模型。函數

  4. 解釋什麼是準確率(precision)和召回率(recall),它們和ROC曲線有什麼關聯?工具

  5. 解釋什麼是長尾分佈並舉出三個相關案例。爲何它們在分類和預測問題中很重要?

  6. 什麼是隱語義分析(latent semantic indexing)?其主要是用來作什麼的?這種方式的侷限性是什麼?

  7. 中心極限理論是什麼?其重要性是什麼?在何種狀況下會失效?

  8. 統計功效(statistical power)是什麼?

  9. 解釋什麼是重採樣法(resampling methods)以及它的用處和侷限性。

  10. 解釋含softmax activation的人工神經網絡(artificial neural networks )、邏輯迴歸及最大熵分類器的區別。

  11. 解釋選擇性誤差(這裏指特定數據庫而不是隨機選擇)及其重要性。解釋缺失數據處理等數據管理流程是如何讓這種誤差變得更嚴重的?

  12. 舉例說明實驗設計是如何幫助解決行爲問題的。例如解釋實驗設計如何幫助優化網絡頁面。如何將實驗數據和觀測數據做對比?

  13. 解釋「長格式數據」和「寬格式數據」的不一樣,爲何你選擇使用其中某一種?

  14. 對缺失數據使用均數填補法(mean imputation)是可行的麼?爲何?

  15. 解釋Edward Tufte 的「chart junk」理論。

  16. 什麼是異常值?解釋你是如何在數據庫中尋找異常值以及找到後是如何處理的。

  17. 什麼是主成分分析(PCA)?闡述你會用PCA來解決何種問題,以及這種方法的侷限性。

  18. 假如你擁有一家客戶呼叫服務中心的來電時長數據,你打算如何編碼並分析這些數據?描述一個這些電話時長數據可能呈現的分佈場景,你將如何驗證(最好是能圖形化地展示)這個分佈場景的正確性?

  19. 解釋什麼是「誤報」(false positive)和「漏報」(false negative)。區分這二者的重要性是什麼?分別對如下場景舉例:(1)誤報比漏報更重要 (2)漏報比誤報更重要(3)二者一樣重要。

  20. 解釋管理數據集(administrative datasets)和實驗中收集的數據集(datasets gathered from experimental studies)之間可能的差別。有哪些是管理數據可能碰到的問題?實驗是如何幫助減輕這些問題的?但隨之又會帶來哪些其餘問題?

 

 

quora地址:https://www.quora.com/What-are-20-questions-to-detect-fake-data-scientists 

原做者|Jay Verkuilen 翻譯|Lizyjieshu 

校對|apple  寒小陽

 

◆ ◆ ◆

KDnuggets編輯們針對這20個問題給出的回答

 

因爲回答人不一樣,這二十個答案和上一部分的內容可能不會一一對應,但相信你仍是能夠獲得想要成爲數據科學家的知識。

 

Q1:什麼是正則化(regularization)?它有什麼做用?

【Matthew Mayo解答】

 

答:正則化項是保證模型平滑性的一個調節參數,它能夠起到防止過擬合的做用。正則化的一般作法,是將已有的權重向量通過L1(Lasso)或者L2(ridge)變換,固然變換也能夠是其餘形式。最終的模型優化目標,是加入了正則化項後的損失函數。Xavier Amatriain給了一個很好的例子,對L1和L2正則化進行比較。

 

Lp球:p值減少,對應Lp空間也減少

 

Q2你最崇拜的數據科學家和創業公司有哪些?

【Gregory Piatetsky解答】

 

答:這個問題沒有標準答案,下面是我我的最崇拜的12位數據科學家,排名不分前後。

 


12位知名的數據科學家

 

  • Geoff Hinton, Yann LeCun, 和Yoshua Bengio在神經網絡方面堅持不懈的努力開啓了當前深度學習(Deep Learning)的革命。

  • Demis Hassabis在DeepMind(AlphaGo發明者,Google子公司)的突出貢獻,使機器在玩Atari遊戲以及最近進行的圍棋比賽中達到了人類或超人類的水平。

  • 來自DataKind的Jake Porway和U. Chicago/DSSG的Rayid Ghani,使數據科學能夠在社會福利方面有所貢獻。

  • DJ Patil美國政府的第一位首席數據科學家,用數據科學服務於美國政府。

  • Kirk D. Borne以社交媒體上的影響力和領導力爲你們所知。

  • Claudia Perlich在廣告生態方面有很出色的工做,他仍是KDD 2014的主席。

  • Hilary Mason在Bitly的偉大貢獻,激勵着其餘人成爲大數據的搖滾明星。

  • Usama Fayyad在KDD和Data Science展示出的領導力和規劃才能,幫助和激勵着我和其餘千千萬的數據科學工做者不遺餘力工做。

  • Hadley Wickham在基於R的數據科學和數據可視化方面的卓越工做,包括 dplyr, ggplot2, 和 Rstudio。

 

在數據科學領域有不少出色的創業公司。爲了不利益衝突,我就不將它們都列出來了。

 

Q3用多元迴歸(multiple regression)生成了一個量化輸出的預測模型,如何驗證其有效性?

【Matthew Mayo.解答】

 

答:驗證多元迴歸模型的方法有不少,咱們推薦以下的一些方法:

 

  • 若是模型預測值遠在響應變量範圍以外,那麼模型的預估準確性顯然存在問題。

  • 雖然預測值看起來合理,可是參數存在如下問題,也能夠判斷存在預估問題或者多重共線性問題:與指望值相反的跡象;值特別大或特別小;在給模型輸入新數據時發現不一致。

  • 經過向模型輸入新的數據,來作預測,而後用相關係數來評價模型的正確性。

  • 把數據分紅兩份,一份用來訓練模型參數,另外一份用來驗證。

  • 若是數據集很小,就要使用 jackknife resampling技術,並用R平方和MSE(mean squared error)來測量效度。

 

Q4:什麼是查準率(precision)和查全率(recall)?與ROC曲線的關係?

【Gregory Piatetsky解答】

 

答:計算查準率和查全率實際上很簡單。好比,在10,000個實例中有100個正例,若是你預測的結果有200個正例,那麼顯然召回這100個正例的機率天然會大一些。根據你的預測結果和實際的標籤,將結果中正確或者錯誤的次數分別加起來,有以下四個統計量:

  1. TN / True Negative:實例是負的,預測也是負的

  2. TP / True Positive:實例是正的,預測也是正的

  3.  FN / False Negative:實例是正的,可是預測是負的

  4.  FP / False Positive:實例是負的,可是預測是正的

 

  Predicted Neg Predicted Pos
Neg Cases TN: 9,760 FP: 140
Pos Cases FN: 40 TP: 60

 

如今能夠回答以下三個問題:

 

一、 預測正確的百分比是?

回答:精度(accuracy)是(9,760 + 60) / 10,000 = 98.2%

 

二、 實際爲正例的樣本你預測對了多少?

回答:查全率(recall)是60 / 100 = 60%

 

三、 預測爲正例的樣本中實際爲正例的百分比?

回答:查準率(precision)是60 / 200 = 30%

 


查準率和查全率

 

ROC曲線體現了靈敏性(召回)[原文:sensitivity, (RECALL)]和特異性(不是精確度)[原文:specificity(Not PRECISION)]之間的關係。一般用於衡量二分類器的好壞。然而,當處理正負樣本分佈得極不均勻數據集,PR曲線展現信息更具表明性。

 

Q5:如何證實對一個算法的改進的確是有用的?

【Anmol Rajpurohit解答】

 

答:在對快速迭代(又叫「快速成名」)[原文:rapid innovation (aka 「quick fame」)]的追逐中,違反科學方法論的原則常致使誤導性的創新,特別是一些很吸引人但沒通過嚴格驗證的觀點。考慮以下場景,你要改進算法的效果,而且有好幾個改進思路。心急的作法,是儘快列出這些思路並實施。當須要支撐數據時,只有很侷限的結果能夠共享,這些結果很容易受到已知或未知的選擇誤差、或者誤導性的全局最優(緣由是缺少適當變化的測試數據)影響。

 

數據科學家最忌諱的是將情感凌駕於邏輯推理之上。雖然證實算法改進有效的方法要看實際案例,但仍有一些通用的指導原則:

  • 肯定用於效果評測的測試數據沒有選擇誤差(selection bias)。

  • 確保測試數據有足夠的變化(variety),以便對真實數據有擴展性(有助於避免過擬合)。

  • 確保遵循對照實驗(controlled experiment)原則,好比當對比效果時,確保新舊算法的測試環境(硬件等)徹底一致。

  • 肯定試驗(近似)結果能夠重複。

  • 檢查結果反映了局部極大值/極小值(local maxima/minima)或是全局極大值/極小值(global maxima/minima)。

 

遵循以上原則的一般作法是A/B測試,將兩個算法都放到類似的環境裏運行至關長一段時間,而且將實際輸入數據隨機的劃分到兩個算法上。這種方法在網絡分析(Web Analytics)中很經常使用。

 

Q6:什麼是根本緣由分析(root cause analysis)?

【Gregory Piatetsky解答】

 

答:維基百科上的解釋是:Root cause analysis (RCA)是肯定錯誤或問題根本緣由的方法。當把某個因素從問題故障序列中去除,可以避免最終不良事件的再次發生,該因素就會被認定爲根本緣由;反之,誘因影響事件的結果,卻不是根本緣由。

根本緣由分析最初是用來分析工業事故,如今已經在醫療保健、項目管理和軟件測試等領域普遍應用。

 

本質上來講,經過反覆問「爲何」,就能夠找到一個問題的根本緣由和緣由之間的關係,直到找到問題的根本。這個方法一般叫作「5 Whys」,固然問題的個數並不必定是5個。

 

「爲何」分析法示例, 來自 The Art of Root Cause Analysis

 

Q7:你熟悉如下概念嗎?

價格優化(price optimization)、

價格彈性(price elasticity)、

庫存管理(inventory management)、

競爭情報(competitive intelligence)。

請舉例說明。

【Gregory Piatetsky解答】

 

答:這些術語都來自經濟學領域,在數據科學中並不常見。可是,瞭解這些術語頗有意義。

 

價格優化,是用數學工具來肯定消費者對不一樣渠道得到的產品或服務的不一樣價格的反應。

 

大數據和數據挖掘使個性化訂價成爲可能。如今,像亞馬遜這樣的公司能夠基於用戶的歷史行爲,將價格優化更進一步,實現不一樣用戶不一樣的價格。固然,這樣作是否公平仍存在很大的爭論。

 

價格彈性,分爲需求價格彈性和供給價格彈性:

需求價格彈性是對價格敏感度的一種度量,其計算公式以下:

需求價格彈性 = 需求量變化的百分比 / 價格變化的百分比

[原文:Price Elasticity of Demand = % Change in Quantity Demanded / % Change in Price]供給的價格彈性(Price elasticity of supply)指的是商品或服務的供給數量隨商品價格變更而變更的狀況。

 

庫存管理,是指對公司在生產過程當中使用的各類物品的訂購、儲存和使用的監督和控制,以及待售成品數量的監督和控制。

 

競爭情報,維基百科上的定義以下

Competitive intelligence: 定義、收集、分析、和發佈有關產品、客戶、競爭對手以及制定戰略決策所需的任何方面的情報。 

像Google Trends, Alexa, Compete等工具均可以在網上得到整體趨勢,進而分析競爭對手的狀況。

 

Q8:什麼是統計功效(statistical power)?

【Gregory Piatetsky解答】

 

答:維基百科這樣定義二元假設檢驗(binary hypothesis test)的統計功效或者靈敏度(sensitivity):當備選假設(alternative hypthesis)H1爲真時,正確地拒絕零假設(null hypothesis)H0的機率。另外一種說法,統計功效是當效應(effect)存在時,可以檢測到效應的可能性。功效越高,出現II類錯誤(Type II error)可能性越低(即檢測結論沒有效應,但事實上是有的。譯者注:即假陰性)。

 

Q9:什麼是重採樣(resampling)?它有什麼用?有什麼侷限?

【Gregory Piatetsky解答】

 

答:經典的統計參數檢測把實測統計量看成理論抽樣分佈。而重採樣是數據驅動的,而不是理論驅動的方法,它是在同一個樣本中反覆採樣的技術。

 

如下各類方法均可以被稱爲重採樣:

  • 使用可用數據集的子集(jackknifing)或者隨機可重複採樣出一批的數據點(bootstrapping)來估計樣本統計量(中位數、方差、百分位數)[原文:medians, variances, percentiles]的準確率。

  • 在進行顯著性檢驗時交換數據點的標記(置換檢驗,也被稱爲精確檢驗,隨機化檢驗,或重隨機化檢驗)[原文:permutation tests, also called exact tests, randomization tests, or re-randomization tests]

  • 經過隨機子集驗證模型(bootstrapping,交叉驗證)[原文:bootstrapping, cross validation]

     

Q10:假陽性(false positive)多仍是假陰性(false negative)多比較好?請說明緣由。

【Devendra Desale解答】

 

答:這個問題取決於要解決的問題和領域。

 

好比,在醫學檢驗方面,假陰性會給病人和醫生提供錯誤的檢查信息,但病人有病時卻檢測爲沒有病,這會致使病人得不到適合的治療。因此,這個時候咱們但願多一些假陽性。

 

可是,在垃圾郵件過濾時,假陽性意味着會將正常郵件當成了垃圾郵件,從而干擾郵件的傳送。反垃圾郵件除了要可以夠攔截或過濾大部分的垃圾郵件,但減小假陽性帶來的誤傷也很是重要。因此,這時咱們但願多一些假陰性。

 

Q11:什麼是選擇誤差(selection bias)?它的重要性如何?怎樣才能避免?

【Matthew Mayo解答】

 

答:通常來講,選擇誤差指的是因爲非徹底隨機的樣本引起錯誤的一種狀況。舉例來講,若是有100個測試樣本,分別由60/20/15/5分紅四類組成,但實際的訓練樣本中每類實例數量又是接近的,那麼模型有可能給出錯誤的假設—每類佔比是決定性的預測因素。避免非隨機採樣是解決選擇誤差的最好辦法,但當它在實踐中有困難時,使用相似重採樣(resampling)、boosting和加權(weighting)這樣的策略也有助於解決這個問題。

 

Q12:舉例說明怎樣設計實驗來回答有關用戶行爲(user behavior)的問題

【Bhavya Geethika解答】

 

答:步驟1,制定要研究的問題:頁面加載時間對用戶滿意度評級的影響是什麼?

 

步驟2,識別變量:咱們要識別出緣由和結果,自變量是頁面加載時間,因變量是用戶滿意度評級。

 

步驟3,構造假設:對一個網頁來講,較低的頁面加載時間會對用戶滿意度有更多影響。這裏咱們要分析的因素就是頁面加載時間。


  你的實驗設計有一個缺陷

 

步驟4,肯定實驗的設計:考慮實驗的複雜性,即一次改變一個因素或者在同一時間改變多個因素,這樣咱們用的是因子設計(factorial design, 又稱2 ^ķ設計)。設計的選擇要基於目標的類型(比較、篩選、響應面)[原文:Comparative, Screening, Response surface]和因素(factors)的個數。

 

咱們還要肯定採用何種實驗形式,能夠是參與者組內、參與者組間或者混合方式。例如:有兩個版本的網頁,一個在左邊有購買按鈕(點擊購買)另外一個網頁這個按鈕在右邊。

 

參與者組內設計(Within-participants design) – 用戶組的用戶均可以看到兩個版本的網頁。

參與者組間設計(Between-participants design) – 一個用戶組看到A版本,另外一組的用戶看到B版本的。

 

步驟5,制定實驗任務和程序:

實驗中涉及的步驟的詳細描述,用來衡量用戶行爲的工具, 目標和成功度量這些都要定義。收集有關用戶參與的定性數據,以便進行統計分析。

 

步驟6,肯定操做和測量:操做(manipulation): 控制一個層級的因素,處理另外一個。咱們還要定義行爲的衡量標準。

  • 延遲(Latency)-從提示到行爲發生的時間(從展現出商品到用戶點擊購買按鈕用了多長時間)。

  • 頻次(Frequency)-一個行爲發生的次數(在某個時間內點擊特定頁面的次數)。

  • 持續時長(Duration)-特定行爲持續時間(添加全部商品所用的時間)。

  • 強度(Intensity)-行爲發生的強烈程度(用戶多快購買一個商品)。

 

步驟7,分析結果:

識別用戶行爲數據,根據觀測到的結果,支持或反對該假設。例如:不一樣頁面加載時間下用戶滿意度評級的分佈是怎樣的。 

 

Q13:「高/寬」數據(tall/wide data)的差異是什麼?

【 Gregory Piatetsky解答】

 

答:在大多數數據挖掘、數據科學的應用中,記錄(行)比特徵(列)多不少-這種數據有時被稱作「高」數據。 

 

在像基因組學或者生物信息學的一些應用中,你可能只有不多的記錄(病人),例如100,但又可能會對每一個病人作20,000個觀察。這時,一般用在「高」數據上的標準方法會致使過分擬合數據,因此須要引入特殊的方法。

 


 針對高數據和寬數據的不一樣方法

問題不只僅是變形(reshape)數據(這裏有R包 useful R packages),而是經過減小特徵數來尋找最相關的特徵,以免假陽性(false positives)。特徵約減(feature reduction)的方法像Lasso在"Statistical Learning with Sparsity: The Lasso and Generalizations"一書中有介紹, 請在公衆號後臺發送信息「data2」獲取。

 

Q14:怎樣肯定一篇文章裏(報紙或其餘媒體上)的統計數據是錯的或者只是爲了支持做者的觀點,而不是關於某主題正確全面的真實信息?

 

答:Zack Lipton提出了一個簡單的原則:若是這些統計數據發表在報紙上,那麼它就是錯的。這裏有一個來自Anmol Rajpurohit的更嚴謹的解答。

 

每一個媒體都有目標受衆,對受衆的選擇在很大程度上決定了發佈哪些文章、文章怎樣措辭、重點突出文章的哪部分、怎樣去講這個事件等。

 

要斷定發表在一篇文章上統計數據的有效性,第一步先要看發表它的機構和它的目標受衆。你會發現即便是一樣一個包含統計數據的新聞事件,福克斯新聞(Fox news)、華爾街新聞(wsj)和ACM/IEEE發佈的會不那麼同樣。所以,數據科學家能聰明地知道從哪裏獲取資訊(以及要相信它幾分)。

 


 出如今「福克斯新聞」上一個十分具備誤導性的柱狀圖

 


如何客觀地呈現相同的數據

 

做者一般經過下面的方法試圖隱藏他們研究的不足:巧妙的敘事技巧和忽略重要的細節直接跳到誘人的錯誤結論。所以,可使用「拇指規則」(thumb’s rule)識別文章是否包含誤導人的統計數據,檢查文章是否包含了研究方法上的細節以及研究方法是否存在有感知限制的選擇。注意查找像「樣本容量(sample size)」,「偏差範圍(margin of error)」等詞。儘管對「樣本容量」,「偏差範圍」多少合適沒有完美的答案,這些屬性在閱讀最終結論時要牢記於心。

 

另外一個常見的錯誤報道案例是這樣的,缺少數據素養(data-education)的記者從已發表的研究報告的一兩段中獲得一個看法,而且爲了獲得他們的觀點而忽略報告的其餘部分。所以,如下一些方法可以避免你被這樣的文章愚弄:首先,一篇可靠的文章不會含有任何無事實根據的觀點。全部觀點都必須可以對應研究結果的支持。不然,則必須明確將其區分爲「意見」,而不是一個觀點。其次,即使一篇文章引用了著名的研究論文,也並不表明它正確地運用了論文中的觀點。這能經過全面閱讀這些研究論文來判斷其與手頭文章的相關性。最後,雖然結論看起來是一篇文章最有趣的部分,但直接跳過研究方法(research methodology)的細節(例如明顯錯誤,誤差等)[原文:spot errors, bias, etc.]每每是災難性的。

 

理想狀況下,我但願全部這些文章發表研究數據的時候也同時公佈研究方法。這樣,文章才能作到真正可信,由於每一個人均可以分析這些數據,應用研究方法得出結論。

 

Q15:解釋Edward Tufte's的「圖表垃圾」(chart junk)的概念

【Gregory Piatetsky解答】 

 

圖表垃圾指的是圖表或圖片中全部可視元素對錶達信息是沒必要要的,或者干擾觀察者獲取信息。圖表垃圾這個名詞是由Edward Tufte在他1983年的書《定量信息的視覺展現》裏提出的。

 


「一個無心的內克爾錯覺,像後面兩個平面翻轉到了前面來。有的角錐體遮住了其餘的;一個變量(角錐體堆疊的深度)沒有註明標識或比例」。

 

 

上圖一個來自exceluser的更現代的例子,因爲工人和吊車的干擾,圖中的柱狀圖很難理解

 

這些修飾的存在迫使讀者花更大力氣而非必要地來發現數據的意義。

 

Q16:怎樣篩查異常點(outliers)以及發現異常點後該如何處理?

【Bhavya Geethika解答】

 

答:一些篩查異常點的方法有Z分數(z-score)、改進的Z分數(modified z-score)、箱線圖(box plots)、格拉布斯測試(Grubb’s test)、Tietjen-Moore測試指數平滑(Tietjen-Moore test exponential smoothing)、Kimber測試指數分佈(Kimber test for exponential distribution)和移動窗口濾波算法(moving window filter algorithm)。下面是兩種穩健(robust)方法的細節:

 

四分位距法(Inter Quartile Range)

異常值是給定數據集中一個小於第一四分位數(Q1)或者大於第三四分位數(Q3)1.5倍四分位距以上的數據點。

  • High = (Q3) + 1.5 IQR

  • Low = (Q1) - 1.5 IQR

 

Tukey法(Tukey Methond)

它使用四分位距來過濾太大或過小的數。它實際上與上面的方法同樣,除了它使用了「圍欄(fences)」的概念。有兩個一高一低的圍欄:

  • Low outliers = Q1 - 1.5(Q3 - Q1) = Q1 - 1.5(IQR)

  • High outliers = Q3 + 1.5(Q3 - Q1) = Q3 + 1.5(IQR)

在圍欄以外的都是異常點。

 

當發現了異常值,不能在沒有進行定性評估下就將它們移除,由於這樣作是數據再也不純淨。重要的是要理解分析問題的上下文或者說重要的是「爲何的問題-爲何異常值不一樣於其餘數據點?」

 

這個緣由很關鍵。若是是異常點致使了錯誤的發生,就能夠把它扔掉。但若是異常點表示了一種新的趨勢、模式或者揭示了數據中有價值的結論,那麼它就應該被保留。

 

Q17:怎樣運用極值理論(extreme value theory)、

蒙特卡洛模擬(Monte Carlo simulations)或其餘數理統計方法來正確的估計一個小几率事件(rare event)的發生概率。

【Matthew Mayo解答】

 

答:極值理論關注的是小几率事件或極值,這點和經典統計方法不太同樣,後者更關注平均。極值理論認爲有3種分佈能夠建模從一些分佈中隨機觀察到的極值點:Gumble, Frechet, 和 Weibull分佈,也被叫作極值分佈(Extreme Value Distributions, EVD)I型、II型和III型。

 

極值理論認爲,若是從一個給定分佈中產生N個數據集,而後建立一個只包含了這N個數據集的最大值的新數據集,那麼這個新數據集只能被一種EVD分佈精確描述:Gumble, Frechet, 或者 Weibull分佈。廣義極值分佈(GEV)則是一個能夠組合這3種極值理論分佈還有極值分佈模型的模型。

 

首先要理解用來建模數據的模型,而後才能使用模型來建模數據,最後纔是評估。一旦找到最合適的模型,就能對模型進行分析,包括計算可能性。

 

Q18:什麼是推薦引擎(recommendation engine)?

它是怎麼工做的?

【Gregory Piatetsky解答】

 

咱們如今都對推薦很熟悉,好比netflix的「你可能喜歡的其餘電影」,亞馬遜的「購買了X的用戶還買了Y」。這些系統就叫作推薦引擎,或者更通俗地叫作推薦系統(recommender systems)。

 


 

兩種典型的進行推薦的方法是:協同過濾(Collaborative filtering)和基於內容的推薦(Content-based filtering)。

 

協同過濾基於用戶過去的行爲(如買過的商品、看過的電影、評過的電影等)和用戶以及其餘用戶的決定建模,而後模型被用於預測用戶可能會感興趣的物品(或者給物品的評分)。

 

基於內容的推薦方法基於一個物品特徵來推薦更多具備相似特性的物品(items)。這些方法常常包含在混合推薦系統(Hybrid Recommender Systems)中。

 

這裏有兩種方法應用到兩個流行音樂推薦系統中的比較:Last.fm和Pandora Radio(例子來自維基百科的推薦系統條目Recommender System)

  • Last.fm創建了一個歌曲推薦站。他們觀察一個用戶常常聽的樂隊或單曲,並與其餘用戶的聽歌行爲進行比較,而後Last.fm會給一個用戶播放那些不在其曲庫裏,但和其興趣類似的其餘用戶常聽的歌曲。因爲這種方法利用了用戶行爲,它是一個協同過濾技術的例子。

  • Pandora是一個能夠播放具備類似屬性音樂的站,它主要基於一首歌或藝術家的屬性(一個由Music Genome Project提供的400個屬性的子集)來推薦。用戶的反饋用來修正曲庫的結果,當用戶不喜歡一首歌曲時就減弱對應的屬性(attributes),而當用戶喜歡一首歌曲時就加強對應的屬性。這是一個基於內容過濾的例子。

     

 

Q19:說明假陽性(false positive)和假陰性(false negative)分別是什麼?爲何區分它們的差別性很重要?

【 Gregory Piatetsky解答】

 

答:在二分類(或者醫學檢驗)中,假陽性是指當一個算法或測試顯示出現某種情況,但實際上並未出現。假陰性是指當一個算法或測試顯示未出現某種狀,但實際上卻出現了。

 

在統計假設檢驗中,假陽性也叫作一類錯誤,假陰性也叫作二類錯誤。

 

很明顯區分和區別對待假陽性和假陰性很是重要,由於這兩類錯誤的代價可能會有巨大差別。

 

舉例來說,若是對一項重大疾病的檢測是假陽性(檢測結果是有病,但其實病人是健康的),那麼就需額外的檢測來作出正確的診斷。另外一方面,若是一項檢測是假陰性(檢測結果是健康的,但其實病人有疾病),那麼必要的治療將會終止,可能會致使病人病情惡化而死亡。

 

Q20:你使用什麼工具來作可視化(visualization)?你以爲Tableau怎麼樣?R呢?SAS呢?怎樣在一張圖或視頻裏有效地展現5維數據?

【Gregory Piatetsky解答】

 

答:數據可視化有不少很好的工具,如R, Python, Tableau 和 Excel等都是數據科學家常用的。

 

有不少方法能夠在一個圖表裏展現多於2維的信息。第三維度能夠用能旋轉的三維散點來展現。還能夠應用顏色、陰影、形狀、尺寸。動畫能夠有效地展現時間維度(隨着時間改變)。下面是個好例子。


5維Iris數據集的散點圖 分別對應 尺寸: 花萼長度; 顏色: 花萼寬度; 形狀: 類別標記; 橫軸: 花瓣長度; 縱軸: 花瓣寬度

 

對多於5維的,一種方法是平行座標法 (Parallel Coordinates),由Alfred Inselberg獨創。 

 Iris數據集的平行座標展現 

 

固然,當有不少維度的時候,最好仍是先減小維度或特徵的數量。

相關文章
相關標籤/搜索