摘要: 本文精選了24個數據科學項目,並囊括了各個領域和各類不一樣大小的數據集。另外,全部的數據集都是開源、可免費獲取的。
數據科學項目爲你在這個領域的深刻研究提供了一個基礎。經過實際應用,你不只能夠學習數據科學,也可以寫在簡歷中提高你的資歷。在這上邊花費的時間越多,你學到的知識就越多。php
本文精選了24個數據科學項目,並囊括了各個領域和各類不一樣大小的數據集。另外,全部的數據集都是開源、可免費獲取的。html
初級——這部分的數據集很容易處理,使用基礎的迴歸/分類算法就能夠處理這些數據集。而且,這些數據集有足夠的教程供你學習。python
中級——略微有點難度。包含了須要使用有點難度的模式識別技能來處理的大中型數據集。另外,特徵工程在這裏能夠發揮做用了。git
高級——包括神經網絡、深度學習、推薦系統及高維數據等。github
1.Iris Data數據集(花的類別識別)web
Iris Data Set多是模式識別領域學習分類技術最基本入門級的數據集,適合初學者。該數據集裏面包含了150行4列個數據。算法
問題: 根據已有特徵預測花的類別。
資源:數據集 | 教程數據庫
2.Loan Prediction 數據集(貸款預測)api
它是保險領域最常引用的一個數據集。利用這個數據集,你能夠充分體驗到如何處理保險公司的數據,包括會遇到哪些挑戰、須要什麼策略、哪些變量會影響結果等。這是一個分類問題,數據集包含615行13列個數據。安全
3. Bigmart Sales 數據集(零售業銷售)
零售業是另外一個充分利用數據分析優化商業流程的行業。咱們能夠利用數據科學對商品的放置、庫存管理、定製供應、商品捆綁等任務進行巧妙的處理。該數據集包含了商店的交易數據,是一個迴歸問題,共包含8523行12列個數據。
問題:預測銷量。
4.Boston Housing 數據集(波士頓房屋)
這是另外一個模式識別領域較爲常見的數據集,來自於波士頓的房地產業,是一個迴歸問題,數據集有506行14列個數據。這個數據集並不大,你能夠嘗試使用任何技術,而不用擔憂筆記本的內存不夠。
問題:預測業主擁有房屋數量的中間值。
5. Time Series Analysis數據集(時間序列分析)
時間序列是數據科學中最經常使用的技術之一,具備普遍的應用:預測天氣預報、預測銷售額、分析逐年趨勢等。該數據集特定於時間序列,這裏面臨的挑戰是預測交通方式。
問題:預測新的交通工具的交通。
6. Wine Quality數據集(酒質量)
這是初學者最經常使用的數據集之一,分紅了2個數據集。在這個數據集上能夠同時執行迴歸和分類任務——異常值檢測、特徵選擇和不平衡數據。該數據集有4898行和12列個數據。
問題:預測酒的質量。
7.Turkiye Student Evaluation 數據集(學生課程評估)
該數據集基於學生填寫不一樣課程的評估表,擁有不一樣的屬性,包括出勤率、難度、分數等,是一個無監督學習問題。該數據集有5820行33列個數據。
問題:使用分類和聚類解決問題。
8.Heights and Weights 數據集(身高體重預測)
這是一個至關直接的迴歸問題,很是適合新手。該數據集有25,000行3列(索引、高度和權重)個數據。
問題:預測一我的的身高或體重。
1. Black Friday數據集(黑色星期五)
這是一個包含零售商店記錄的銷售交易的經典數據集,能夠擴展特徵工程的技能,並從天天的購物經驗中對其進行理解,是一個迴歸問題。該數據集有550,069行12列個數據。
問題:預測購買力。
2. Human Activity Recognition 數據集(人類活動識別)
該數據集經過帶有嵌入式慣性傳感器的智能手收集了30個實驗者的記錄,可用於分類問題。數據集有10,299行561列個數據。
問題:預測人類活動的類別。
資源:數據集 | 教程
3. Text Mining數據集(文本挖掘)
該數據集最初來自於2007年Siam文本挖掘競賽,包括描述某些發生故障的航班的航空安全報告,是一個多分類和高維度問題。該數據集有21,519行30,438列個數據。
問題:根據文本標籤對文本進行分類。
資源:數據集 | 教程
4. Trip History數據集(旅行歷史)
此數據集來自美國的共享自行車服務。該數據集須要使用專業的數據處理技術,該數據集種的數據是從2010年第四季度開始按季度記錄的。每一個文件有7列是一個分類問題。
問題:預測用戶的類別。
5. Million Song數據集(預測歌曲發行時間)
你知道數據科學如今也用於娛樂行業嗎?這個數據集提出了一個迴歸任務,由515,345個觀察值和90個變量組成。可是,這僅僅是原始數據庫(約一百萬首歌曲)中的一小部分。
問題:預測歌曲的發行時間。
6.Census Income數據集(預測人口收入)
這是一個經典的不平衡分類機器學習問題。如今,機器學習普遍應用於正被普遍用於解決不平衡問題,如癌症檢測、欺詐檢測等。該數據集有48,842行14列個數據。
問題:預測美國人的收入水平。
7. Movie Lens數據集(電影推薦系統)
用於構建推薦系統,該數據集是數據科學行業中最受歡迎的「數據集」之一,有不一樣大小的數據集。這裏有一個較小的數據集,包含4,000部電影,6000個用戶的100萬個收視率。
問題:爲用戶推薦電影。
8. Twitter Classification數據集(預測推文)
Twitter數據已成爲情感分析不可分割的一部分。該數據集大小爲3MB,包含31,962條推文。
問題:預測哪些推文是使人討厭的,哪些不是。
1.識別數字的數據集
用於研究、分析和識別圖像中的元素,這就是使用相機識別面部的技術,屬於數字識別問題。該數據集有28,000個28*28大小的圖像,總計31MB。
問題:從圖像中識別數字。
2.城市聲音分類
該項目旨在介紹經常使用的音頻分類問題。該數據集由10個類別(包含來自8,732個城市聲音的記錄)組成。
問題:對音頻進行分類。
3. Vox名人數據集
音頻處理正迅速成爲深度學習的重要領域,所以這是另外一個具備挑戰性的問題。此數據集收集了大型演講者的演講,並從YouTube中提取的名人的講話。對於語音識別來講,這是一個頗有趣的項目。該數據集包含1,251位名人發表的100,000條言論。
問題:找出聲音屬於哪一個名人。
4. ImageNet數據集
ImageNet提供了各類各樣的問題,包括對象檢測、定位、分類和屏幕分析。 全部的圖像都是免費的,你能夠搜索任何類型的圖像來構建項目。截至目前,該數據集擁有超過1500萬張圖片,大小超過140GB。
問題:要解決的問題會受下載圖像的類型影響。
資源:數據集 | 教程
5.芝加哥犯罪數據集
如今,每一個數據科學家都但願可以處理大型數據集,是一個多分類問題。該數據集在本地提供了處理大型數據集所需的實踐經驗。問題很簡單,但數據管理是關鍵!這個數據集有6,000,000個觀測值。
問題:預測犯罪類型。
資源:數據集 | 教程
6.印度演員年齡檢測
對於任何深度學習愛好者來講,這是一個使人着迷的挑戰。該數據集包含數千個印度演員的圖像,用來預測其年齡。全部圖像都是人工手動從視頻幀中選取的,這就致使了尺度、姿式、表情、照明、年齡、分辨率、遮擋和化妝等的高度可變性。訓練集中有19,906幅圖像,測試集中有6,636幅圖像。
問題:預測演員的年齡。
資源:數據集 | 教程
7.推薦引擎數據集
這是一項高級推薦系統挑戰賽。在這個項目中,你會獲得之前解決的程序和數據,以及解決特定問題的時間。做爲一名數據科學家,你構建的模型將協助在線評委決定向用戶推薦的下一級問題。
問題:根據用戶的當前狀態,預測解決問題所須要的時間。
資源:數據庫
8. VisualQA數據集
VisualQA是一個包含圖像的開放式問題數據集。這些問題須要理解計算機視覺和語言,這些問題有一個自動評估指標。數據集包含265,016張圖片,每張圖片3個問題,且每一個問題有10個標記好的答案。
問題:使用深度學習回答有關圖像的開放式問題。
資源:數據集 | 教程
在上面列出的24個數據集中,你應該首先找到與自身技能相匹配的數據集進行實踐和練習。好比說,假如你是一位初學者,請先從初級數據集開始實踐,而不是直接從高級數據集開始練習。
本文做者:【方向】
閱讀原文本文爲雲棲社區原創內容,未經容許不得轉載。