[Kaggle] How to handle big data?

時間 2019-11-18

標籤 kaggle handle big data 简体版

原文原文鏈接

上一篇，[Kaggle] How to kaggle?【方法導論】 html

這裏再作一點進階學習。git

寫在前面

"行業特徵" 的重要性

Ref: Kaggle2017—1百萬美金的肺癌檢測競賽的難點哪兒github

1、醫學頂會 MICCAI

Medical image analysis是個很是有意義的研究方向，按道理屬於Computer Vision，但因爲沒有像CV裏面物體識別場景識別裏標準化的數據庫和評測方法，一直比較小衆。算法

MICCAI是這個medical image analysis方向的頂會，目前並無被deep learning統治，常常看到mean-shift以及其餘比較基礎的圖片處理的算法，深度學習在這方面應該有很大潛力。CV裏扎堆的優秀同窗們不妨多看看這個方向，畢竟在某個疾病預測任務上能提高2%準確度比在Pascal VOC上費牛勁擼個0.5%提升有意義多了：）數據庫

2、CNN策略找cancer

Medical image analysis裏面數據尤爲寶貴，此次比賽放出來的數據以及這種公開比賽的模式應該能推進這個方向的發展。大體看了下比賽數據，編程

「a thousand low-dose CT images from high-risk patients in DICOM format. Each image contains a series with multiple axial slices of the chest cavity. Each image has a variable number of 2D slices, which can vary based on the machine taking the scan and patient.」，網絡

雖然只有1000多張CT圖，可是每張圖是不少slice，因此算是個cubic representation，可能能夠從deep learning for 3D或者deep learning for video recognition等方向看看有沒有合適的方法能夠借鑑。我不是這方面的專家，就留給各位見仁見智了，歡迎分享。app

這裏給你們提供一個cancer detection的相關工做做爲參考。我CSAIL實驗室前同事去年參加了個相似的比賽cancer metastasis detection：CAMELYON16 - Results，他和Harvard medical school的朋友利用相似於CNN+FCN的網絡取得了第一名。同事去年畢業瞭如今正在用這個成果作Startup，叫PathAI | Welcome。論文也放出來了，感興趣的朋友能夠讀讀：https://people.csail.mit.edu/khosla/papers/arxiv2016_Wang.pdf。網絡結構大體以下圖，思路挺簡單。 dom

3、可解釋性之"熱力圖"

另外，在醫學圖像分析診斷預測裏面，很是重要一點是模型的可解釋性。就是你得解釋清楚你這個AI模型爲何work了，或者爲何在某些情形不work。這點其實比在benchmark上單純提高分數更難。在Deep learning一股腦調參調結構提高分數的年代，network interpretability這個問題廣泛被忽略了。而這我的命關天的medical image analysis方向，模型的可解釋性確定必不可少。再好的模型，解釋不了爲啥work，可能連FDA審覈都過不了。機器學習

這裏我安利一下我CVPR‘16上發表的一個工做：

- 論文：CNN Discriminative Localization and Saliency，
- 代碼：metalbubble/CAM。

這個工做提出了一個叫CAM (Class Activation Mapping)的方法，能夠給任意一個CNN分類網絡生成熱力圖（Class Activation Map），這個熱力圖能夠高亮出圖片裏面跟CNN最後預測結果最相關的區域，因此這個CAM能解釋網絡模型究竟是基於圖片裏面哪些部分做爲證據進行了此次預測。好比說以下圖，咱們在caltech256上fine-tune了網絡，而後對於每張圖生成跟這張圖所屬類別的Class Activation Map，而後就能夠高亮出圖片裏面跟類別最相關的區域。這裏在訓練過程當中，網絡並無接收到任何bounding box的標定。因此一個在medical image analysis上直接擴展是，CNN分類網絡預測出這張圖裏面有很大機率有cancer，這個高亮出來的區域極可能就是cancer區域，感興趣的同窗不妨試試看，很期待大家有新的發現。

4、行業知識的預處理

你們可能一開始的思惟都是直接套用目前cv界的一些成果，這個領域我應該有一點點發言權，畢竟研究生階段作的就是肺癌檢測，算是小有心得，也開始參賽了（錢好多並且也想在畢業前證實三年沒白乾），個人建議是在考慮建模前，首先考慮下肺癌的影像學表現以及基本處理方法，大概1600個ct，若是不利用基本醫學領域知識作預處理，再好的模型我仍是持悲觀態度。

繼續補充，目前來看，這個賽題不太合理，已經有人在論壇裏面說了，肺結節是肺癌的一種影像學表現形式，咱們檢測肺癌，

首先會去檢測肺結節，可是如今賽題的label僅僅是有沒有得癌症，這種量級的數據，模型是沒法找到病竈的，

因此咱們須要先作肺結節檢測，一個ct包含200張圖，真在起做用的可能只有五到六張，你一股腦丟給模型，它都不知道本身要幹啥，搜索空間太大，這也就是我說的必須預處理。

5、一些結論

Jeff：該帖讓你們明白了，預處理的重要性。而CNN的反捲積成爲發現latent features的一個重要方法。不少時候，正確工具的使用決定了一我的在某行業的產出，甚至生存。

天然地，大數據特徵過多，有必要根據」行業經驗「對特徵的重要性進行一些預判。

所謂套路

Ref: 參加kaggle競賽是怎樣一種體驗？

1、最經常使用策略

好模型：在比賽中，最經常使用的分類器通常是Gradient Boosting Tree(GBDT)和Random Forest（對，你沒看錯，不是那個在教科書中推Dual時讓不少人痛不欲生的SVM）

預處理：一些常見的預處理技巧，好比PCA，KMeans，TF/IDF，Hashing等等都仍是必須的。這裏就不展開講了。

2、特徵工程的重要性

對大多數比賽來講，Feature Engineering比選用什麼模型更重要。

kaggle winner = feature engineering + ensemble + good machine + domain knowledge。

大部分kaggle比賽和machine learning關係不大。大部分比賽仍是很brute force的方法，我的見解能拿到10%並非很困難，

(1) 都是一些常見的featuer處理方法(Hash, BOW, TFIDF, Categorization, Normalization)，

(2) 加幾個常見模型（RF, GBDT, LR），

(3) cross－validation調參數，

(4) 最後ensemble一下。

(5) 最好有很好的機器（主要是ram，以及tree-based model並行），這樣就不用太擔憂online training的問題，大部分的lib也能用了。

預約哪一家酒店

Expedia比賽的挑戰是你基於在Expedia提供的用戶的搜索數據中的一些屬性來預測他們會預約哪個酒店。在咱們編程以前須要花時間先理解問題和數據。

若是當你在研究比賽時想要學習更多內容，歡迎選擇咱們的課程dataquest來學習關於數據處理，統計學，機器學習，如何使用Spark工做等等。牛課程：https://www.dataquest.io/dashboard

Expedia比賽

Ref: 如何使用Python在Kaggle競賽中成爲Top15

1、數據集

瀏覽預約流程能夠幫助咱們置身於數據描述的情景中更好的理解Expedia數據。訓練數據達到了3.975GB (千萬行級別)，普通的編輯器沒法打開。

- 數據集：Expedia Hotel Recommendations
- 數據集對應的網站按鍵，用戶行爲流程。

2、預測什麼

根據給定的一個用戶的搜索數據預測哪一個 hotel_cluster會被預約。根據描述總共大概有100個集羣。

每一個集羣的個數，有點groupBy的意思，統計每個類的個數。

in[1]:train["hotel_cluster"].value_counts()

out[1]:
91    1043720
41     772743
48     754033
64     704734
65     670960
5      620194
       ...
53     134812
88     107784
27     105040
74      48355

3、訓練、測試集的劃分

"no bias" 查證

最爲重要的就是，劃分要保證」no bias「。

因此，要保證：測試的用戶id是訓練用戶id的一個子集，用到了set。

test_ids = set(test.user_id.unique())
train_ids = set(train.user_id.unique())

# 確保test中的id是train中的子集
intersection_count = len(test_ids & train_ids)
intersection_count == len(test_ids)

out:
True

隨機抽取行

理想狀況下，咱們想要一個足夠小的數據集可讓咱們可以很是快的迭代不一樣的方法並且仍然可以表明整個訓練數據集。

/* implement */

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。