2020 年面向初學者的 9 個數據科學項目

時間 2020-06-09

標籤面向初學者數據科學項目简体版

原文原文鏈接

做者：Rashi Desai
翻譯：瘋狂的技術宅python

原文：https://towardsdatascience.co...git

若是你對對數據分析、數據科學或是與數據相關的東西感興趣，能夠經過下面的清單來學習。github

1. 信用卡欺詐檢測

預計到 2022 年，擁有信用卡的人數將會接近 12 億。爲了確保信用卡交易的安全性，必須對其活動進行有效的監視。信用卡公司應該可以識別出欺詐性的信用卡交易，從而不會向客戶收取未購買商品的費用。算法

信用卡數據集中包含欺詐和非欺詐交易的組合，目標是預測給定的測試交易是否存在欺詐。安全

要使用的算法：網絡

因爲目標變量是分類變量，因此可使用如下一系列機器學習算法來解決該問題：併發

邏輯迴歸
決策樹
神經網絡

示例代碼

2. 客戶細分

客戶細分是把客戶分紅多個羣體的過程，這些羣體在產品的銷售或營銷的方式上具備類似性，例如性別、年齡、興趣、人口統計資料、經濟情況、地理位置、行爲方式、消費習慣以及其餘更多維度。app

客戶細分是「無監督學習」的最重要應用之一。經過聚類技術，公司能夠肯定客戶的細分市場，從而使他們能夠定位潛在的用戶羣。機器學習

公司經過聚類過程來預見或映射具備相似行爲的客戶羣，用來識別和定位潛在的用戶羣。ide

要使用的算法：

K-均值聚類，分層聚類是最主要的聚類方法。還有一些其餘的聚類算法：

分割法（Partitioning method）
模糊聚類（Fuzzy clustering）
基於密度的聚類
基於模型的聚類

另一旦收集了數據，公司就可以更深刻地瞭解客戶的喜愛，並發現有價值的細分市場的需求，從而使他們得到最大的利潤。這使他們可以更有效地制定營銷策略，並最大程度地下降投資風險。

示例代碼

3. 情感分析

情感被定義爲對某一狀況或事件的見解或態度；意見是數據科學領域中相當重要的話題。因爲它在當今的社交媒體時代具備很大的關聯性，而且能夠解決許多商業問題，因此成爲該領域最熱門的話題之一。

藉助情感分析，你能夠發現文檔、網站、社交媒體的時間線中所反映的觀點的性質。人們應該具備快樂、悲傷、憤怒、積極或消極、沮喪、仇恨、愛等各類情感。

在當今時代，任何數據驅動型的組織都必須重視情感分析模型的結果，藉此肯定其客戶的態度，並針對產其品或服務定位目標客戶。

一些情報機構會對 Twitter 進行情緒分析以獲取情報。

要使用的算法：

樸素貝葉斯
決策樹
Tidytext 包

示例代碼

4. 語音情感識別

在人類的活動中，言語、場景、產品或體驗所附帶的情感決定着不少事情。

SER（語音情感識別 Speech Emotion Recognition）能夠說是今年夏天一項引人注目的數據科學項目。它試圖從語音（語音樣本）中感知人類的情感。另外爲了感知到人的情感，還將不一樣的聲音文件用做數據集。 SER 本質上是從錄音中提取情感，並專一於特徵提取。

在用 Python 處理項目時，你還能夠經過用於分析音樂和音頻的 Librosa 包積累知識。

Vox 名人數據集能夠成爲執行語音情感識別的良好起點。

用到的算法：

卷積神經網絡（CNN）
.遞歸神經網絡（RNN）
神經網絡（NN）
高斯混合模型（GMM）
支持向量機（SVM）

示例代碼

5.預測分析

預測分析的目的是對將來的事件進行預測。

它涵蓋了預測模型、機器學習和數據挖掘等各類統計技術，能夠經過分析當前和歷史數據來識別風險和機會。

例子：

貸款預測數據：預測貸款是否會獲得批准
預測 HVAC 需求：將天氣預報與建築系統相結合
客戶關係管理
臨牀決策支持系統
客戶和員工保持率和流失率
項目風險管理

示例代碼

6. 時間序列分析和建模

時間序列是按時間順序進行索引，把一系列數據點列出或繪製在圖形中。

時間序列是數據科學中最經常使用的技術之一，有着普遍的應用範圍，包括天氣預報、預測銷售、分析年趨勢、預測吸引力、網站訪問量、比賽排名等。

商業機構一次又一次地用 kon 時間序列數據來分析將來的數字。

經過時間序列分析，咱們能夠獲得每小時觀看的廣告、天天在遊戲中的花銷、產品趨勢的變化等。

示例代碼

7. 迴歸分析

迴歸分析的目的是根據歷史數據預測結果。

迴歸分析是一種強大的統計檢驗，能夠檢查兩個或多個目標變量之間的關係。儘管迴歸分析的類型有不少，但它們的核心都是檢查一個或多個自變量對目標（因變量）的影響。

例子：

沃爾瑪銷售數據：預測商店的銷售
波士頓住房數據：預測自有住房的中位數
葡萄酒質量預測：預測葡萄酒的質量
黑色星期五銷售預測：預測一個家庭的購買金額

用到的算法：

這取決於目標變量的性質：是數字仍是分類

CART——因子目標
決策樹——因子目標
線性迴歸——數字目標
邏輯迴歸——因子目標

8. 推薦系統

推薦系統是一個使用過濾過程，並根據用戶的偏好和喜愛提供各類內容的平臺。

推薦系統把相關用戶的信息做爲輸入，並使用機器學習模型從參數評估中返回建議。從 Amazon 到 Zappos，推薦系統無處不在。這是一種數據科學家須要瞭解的典型的機器學習算法。

例如，Netflix 可以爲你推薦和瀏覽歷史記錄類似的電影或節目，或是與你愛好類似的其餘用戶過去看過的電影或節目。

推薦系統有兩種類型-

基於內容的推薦系統：基於用戶的數據提供有表明意義的推薦。根據該數據生成用戶配置文件，而後將其用於向用戶提出建議。當用戶提供更多的數據輸入或着對建議採起行動時，引擎將會變得愈來愈準確。
協做過濾建議：提供與可能有着類似瀏覽歷史或首選項的其餘用戶相關的建議。

示例代碼

9. 探索性數據分析

探索性數據分析（EDA）其實是數據分析過程當中的第一步。經過它你能夠充分利用所擁有的數據，弄清楚你想問什麼問題，如何構架，最好地操縱它來獲取所須要的答案。

EDA 用視覺和定量方法在現有數據中展現普遍的模式、趨勢、離羣值、意外結果等。探索性數據分析能夠完成不少項目。在此我列出一些參考，或許能成爲你的一個良好起點。

例子：

全球自殺率（數據集）
夏季奧運會模型（數據集）
世界幸福報告（數據集）
麥當勞菜單的養分成分（數據集）

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。