成爲數據科學家的入門項目

做者:chen_h
微信號 & QQ:862251340
微信公衆號:coderpai
簡書地址:https://www.jianshu.com/p/56c...php


數據科學家是目前最有吸引力的職業之一,可是如何進入這個領域倒是一個不容易的事。由於你須要經驗才能獲得這份工做,可是你須要這份工做才能得到經驗。是否是感受這是一個惡性循環?html

Statsbot 的數據科學家 Denis Semenenko 寫了這篇文章,用來幫助你們作出第一個簡單可是具備必定說明性的科學數據項目,這個項目須要的時間可能不到一週。python

這意味着你須要定製一個問題,設計解決方案,查找數據,掌握一些分析技術,而後構建一些機器學習模型,最後評估模型質量,並將其包裝成簡單的UI。這比 Kaggle 比賽或者 Coursera 課程更加的多樣化。ios

若是你對這種項目感興趣,那麼你能夠繼續閱讀。git

分類垃圾郵件

垃圾郵件在咱們生活的各個信息角落都存在。其中之一的經典數據項目就是垃圾郵件分類。你能夠訓練一個模型來檢測一個郵件是不是垃圾郵件,以便來減小垃圾信息對用戶的騷擾。github

一個簡單的機器學習模型基於在郵件中看到 「sale」 或者 「buy」 這樣的,來定義一個郵件是否是垃圾郵件。所以,你能夠在一個星期內作出一個垃圾郵件的原型。算法

問題定義: 文本分類
算法: 樸素貝葉斯,線性分類器,樹分類等等分類器
技術工具: sklearnnltkscrapy
數據集: sms spam datasete-mail spam dataset , youtube comments spam dataset
展現方式: 網頁頁面
參考指南:AdBlockAdguard
閱讀指南: How To Build a Simple Spam-Detecting Machine Learning ClassifierGetting Started: Building a Chrome Extensionchrome

Not Hotdog

Not Hotdog 是一個來自硅谷系列的應用程序,能夠識別照片中的熱狗和非熱狗。微信

你能夠經過使用社交網絡或者谷歌圖像來收集數據集,以此來做爲你的模型的訓練集。網絡

從頭開始訓練一個模型須要大量的訓練樣本和訓練時間,所以最好咱們使用一個通過預訓練的網絡模型,這樣能夠縮短訓練時間。

問題定義: 圖像分類image classificationtransfer learning
算法: 卷積神經網絡
技術工具: keraslasagneInstagram API(or external libraries e.g.Instabot)
數據集: 使用 Instagram API 來收集數據
展現方式: APP
參考指南: Not hotdog
閱讀指南: Transfer learning using KerasBuilding powerful image classification models using very little data

Netflix 電影推薦系統

推薦系統對於像 Google 或者 Facebook 這樣的大型公司是必須的,由於從收入和用戶點擊率來看,推薦系統都是很是有價值的。

若是咱們在這個子領域可以獲得實踐,那麼對於之後的數據分析發展是很是有利的。

問題定義: 推薦系統
算法: 下降維度,協同過濾,分類算法
技術工具: sklearnvowpal wabbit
數據集: Netflix prize datasetMovieLens dataset
展現方式: 網頁展現
參考指南: JinniMovieLens
閱讀指南: Quick Guide to Build a Recommendation Engine in Python

Snapchat 鏡頭

若是你比較喜歡處理圖像,那麼你能夠嘗試建立本身自定義的 Snapchat 鏡頭。任何社交網絡都喜歡這樣的東西,包括 Instagram,Facebook 和 Snapchat。

鏡頭檢測面部的關鍵點,用來顯示嘴脣,眼睛,鼻子和臉部的邊界。而後你可使用一些框架來從新構建面部。

問題定義: 圖像識別面部檢測
算法: 卷積神經網絡,面部關鍵點檢測
技術工具: dlibopenfacekerasopenCV
數據集: Facial keypoints detection dataset
展示方式: APP
參考指南: SnapchatInstagram
閱讀指南: Facial landmarks with dlib, OpenCV, and PythonBuild a Simple Camera App

Twitter 數據

不少公司都會在互聯網上面監控客戶的行爲數據,以此來對消極的客戶作出相應的調整。例如,T-Mobile 和 Verizon 須要對消極的推文進行快速響應,並找出問題而且解決。

每一個人均可以使用 Twitter API 和情緒分類算法來進行這個項目。

問題定義 情感分析
算法: 情感分析
數據集: Twitter API
技術工具: nltkspaCy
展示方式: APP
參考指南: TwilertTweetreach
閱讀指南: Twitter sentiment analysis using Python and NLTK

網球預測

專業的投注者老是在尋找有利可圖的賭注。基於大量的數據統計,網球是一種很好的預測類體育項目。數據科學家根據歷史數據和玩家信息來構建預測模型,並將結果與博彩公司的評估進行比較。

目標是找出機器學習模型與博彩公司評估之間的差距,從而有機會獲勝。這是一個很好的實際數據科學項目。

問題定義: 分類
算法: 分類算法
數據集:atpworldtour.com
技術工具: sklearnscrapy
展示方式: APP
參考指南:olbg.com, verifiedbets.com
閱讀指南: Machine Learning for the Prediction of Professional Tennis Matches

股票預測

機器學習模型還善於處理的一個領域是時間序列預測。一個數據處理引擎能夠預測匯率和股票的波動,因此交易員或者程序能夠根據這些數據進行交易。

若是你選擇這個項目,你會很容易獲得數據和實踐。這個領域是從計量經濟學和經典機器學習中得出來的,因此你應該準備好探索統計學方法。

問題定義: 時間序列預測
算法: ARIMA, regression
數據集: Quandl
技術工具: sklearnprophetscrapy
展現方式: APP
參考指南: financeboards.com
閱讀指南: An Introduction to Stock Market Data Analysis with Python

我但願你能從這些簡單數據項目中得到一些啓發,開啓你的數據分析之路。


做者:chen_h
微信號 & QQ:862251340
簡書地址:https://www.jianshu.com/p/56c...

CoderPai 是一個專一於算法實戰的平臺,從基礎的算法到人工智能算法都有設計。若是你對算法實戰感興趣,請快快關注咱們吧。加入AI實戰微信羣,AI實戰QQ羣,ACM算法微信羣,ACM算法QQ羣。長按或者掃描以下二維碼,關注 「CoderPai」 微信號(coderpai)。

圖片描述

圖片描述

相關文章
相關標籤/搜索