2020 年面向初學者的 9 個數據科學項目

做者:Rashi Desai

翻譯:瘋狂的技術宅python

原文:https://towardsdatascience.co...git

若是你對對數據分析、數據科學或是與數據相關的東西感興趣,能夠經過下面的清單來學習。github

1. 信用卡欺詐檢測

預計到 2022 年,擁有信用卡的人數將會接近 12 億。爲了確保信用卡交易的安全性,必須對其活動進行有效的監視。信用卡公司應該可以識別出欺詐性的信用卡交易,從而不會向客戶收取未購買商品的費用。算法

信用卡數據集中包含欺詐和非欺詐交易的組合,目標是預測給定的測試交易是否存在欺詐。安全

要使用的算法:網絡

因爲目標變量是分類變量,因此可使用如下一系列機器學習算法來解決該問題:併發

  1. 邏輯迴歸
  2. 決策樹
  3. 神經網絡

示例代碼


2. 客戶細分

客戶細分是把客戶分紅多個羣體的過程,這些羣體在產品的銷售或營銷的方式上具備類似性,例如性別、年齡、興趣、人口統計資料、經濟情況、地理位置、行爲方式、消費習慣以及其餘更多維度。app

客戶細分是「無監督學習」的最重要應用之一。經過聚類技術,公司能夠肯定客戶的細分市場,從而使他們能夠定位潛在的用戶羣。機器學習

公司經過聚類過程來預見或映射具備相似行爲的客戶羣,用來識別和定位潛在的用戶羣。ide

要使用的算法:

K-均值聚類,分層聚類是最主要的聚類方法。還有一些其餘的聚類算法:

  1. 分割法(Partitioning method)
  2. 模糊聚類(Fuzzy clustering)
  3. 基於密度的聚類
  4. 基於模型的聚類

另一旦收集了數據,公司就可以更深刻地瞭解客戶的喜愛,並發現有價值的細分市場的需求,從而使他們得到最大的利潤。這使他們可以更有效地制定營銷策略,並最大程度地下降投資風險。

示例代碼



3. 情感分析

情感被定義爲對某一狀況或事件的見解或態度;意見是數據科學領域中相當重要的話題。因爲它在當今的社交媒體時代具備很大的關聯性,而且能夠解決許多商業問題,因此成爲該領域最熱門的話題之一。

藉助情感分析,你能夠發現文檔、網站、社交媒體的時間線中所反映的觀點的性質。人們應該具備快樂、悲傷、憤怒、積極或消極、沮喪、仇恨、愛等各類情感。

在當今時代,任何數據驅動型的組織都必須重視情感分析模型的結果,藉此肯定其客戶的態度,並針對產其品或服務定位目標客戶。

一些情報機構會對 Twitter 進行情緒分析以獲取情報。

要使用的算法:

  1. 樸素貝葉斯
  2. 決策樹
  3. Tidytext

示例代碼


4. 語音情感識別

在人類的活動中,言語、場景、產品或體驗所附帶的情感決定着不少事情。

SER(語音情感識別 Speech Emotion Recognition)能夠說是今年夏天一項引人注目的數據科學項目。它試圖從語音(語音樣本)中感知人類的情感。另外爲了感知到人的情感,還將不一樣的聲音文件用做數據集。 SER 本質上是從錄音中提取情感,並專一於特徵提取。

在用 Python 處理項目時,你還能夠經過用於分析音樂和音頻的 Librosa 包積累知識。

Vox 名人數據集能夠成爲執行語音情感識別的良好起點。

用到的算法:

  1. 卷積神經網絡(CNN)
  2. .遞歸神經網絡(RNN)
  3. 神經網絡(NN)
  4. 高斯混合模型(GMM)
  5. 支持向量機(SVM)

示例代碼


5.預測分析

預測分析的目的是對將來的事件進行預測。

它涵蓋了預測模型、機器學習和數據挖掘等各類統計技術,能夠經過分析當前和歷史數據來識別風險和機會。

例子

  1. 貸款預測數據:預測貸款是否會獲得批准
  2. 預測 HVAC 需求:將天氣預報與建築系統相結合
  3. 客戶關係管理
  4. 臨牀決策支持系統
  5. 客戶和員工保持率和流失率
  6. 項目風險管理

示例代碼



6. 時間序列分析和建模

時間序列是按時間順序進行索引,把一系列數據點列出或繪製在圖形中。

時間序列是數據科學中最經常使用的技術之一,有着普遍的應用範圍,包括天氣預報、預測銷售、分析年趨勢、預測吸引力、網站訪問量、比賽排名等。

商業機構一次又一次地用 kon 時間序列數據來分析將來的數字。

經過時間序列分析,咱們能夠獲得每小時觀看的廣告、天天在遊戲中的花銷、產品趨勢的變化等。

示例代碼



7. 迴歸分析

迴歸分析的目的是根據歷史數據預測結果。

迴歸分析是一種強大的統計檢驗,能夠檢查兩個或多個目標變量之間的關係。儘管迴歸分析的類型有不少,但它們的核心都是檢查一個或多個自變量對目標(因變量)的影響。

例子

  1. 沃爾瑪銷售數據:預測商店的銷售
  2. 波士頓住房數據:預測自有住房的中位數
  3. 葡萄酒質量預測:預測葡萄酒的質量
  4. 黑色星期五銷售預測:預測一個家庭的購買金額

用到的算法:

這取決於目標變量的性質:是數字仍是分類

  1. CART——因子目標
  2. 決策樹——因子目標
  3. 線性迴歸——數字目標
  4. 邏輯迴歸——因子目標

8. 推薦系統

推薦系統是一個使用過濾過程,並根據用戶的偏好和喜愛提供各類內容的平臺。

推薦系統把相關用戶的信息做爲輸入,並使用機器學習模型從參數評估中返回建議。從 Amazon 到 Zappos,推薦系統無處不在。這是一種數據科學家須要瞭解的典型的機器學習算法。

例如,Netflix 可以爲你推薦和瀏覽歷史記錄類似的電影或節目,或是與你愛好類似的其餘用戶過去看過的電影或節目。

推薦系統有兩種類型-

  1. 基於內容的推薦系統:基於用戶的數據提供有表明意義的推薦。根據該數據生成用戶配置文件,而後將其用於向用戶提出建議。當用戶提供更多的數據輸入或着對建議採起行動時,引擎將會變得愈來愈準確。
  2. 協做過濾建議:提供與可能有着類似瀏覽歷史或首選項的其餘用戶相關的建議。

示例代碼


9. 探索性數據分析

探索性數據分析(EDA)其實是數據分析過程當中的第一步。經過它你能夠充分利用所擁有的數據,弄清楚你想問什麼問題,如何構架,最好地操縱它來獲取所須要的答案。

EDA 用視覺和定量方法在現有數據中展現普遍的模式、趨勢、離羣值、意外結果等。探索性數據分析能夠完成不少項目。在此我列出一些參考,或許能成爲你的一個良好起點。

例子:

  1. 全球自殺率(數據集
  2. 夏季奧運會模型(數據集
  3. 世界幸福報告(數據集
  4. 麥當勞菜單的養分成分(數據集
相關文章
相關標籤/搜索