做者:Rashi Desai翻譯:瘋狂的技術宅python
若是你對對數據分析、數據科學或是與數據相關的東西感興趣,能夠經過下面的清單來學習。github
預計到 2022 年,擁有信用卡的人數將會接近 12 億。爲了確保信用卡交易的安全性,必須對其活動進行有效的監視。信用卡公司應該可以識別出欺詐性的信用卡交易,從而不會向客戶收取未購買商品的費用。算法
信用卡數據集中包含欺詐和非欺詐交易的組合,目標是預測給定的測試交易是否存在欺詐。安全
要使用的算法:網絡
因爲目標變量是分類變量,因此可使用如下一系列機器學習算法來解決該問題:併發
客戶細分是把客戶分紅多個羣體的過程,這些羣體在產品的銷售或營銷的方式上具備類似性,例如性別、年齡、興趣、人口統計資料、經濟情況、地理位置、行爲方式、消費習慣以及其餘更多維度。app
客戶細分是「無監督學習」的最重要應用之一。經過聚類技術,公司能夠肯定客戶的細分市場,從而使他們能夠定位潛在的用戶羣。機器學習
公司經過聚類過程來預見或映射具備相似行爲的客戶羣,用來識別和定位潛在的用戶羣。ide
要使用的算法:
K-均值聚類,分層聚類是最主要的聚類方法。還有一些其餘的聚類算法:
另一旦收集了數據,公司就可以更深刻地瞭解客戶的喜愛,並發現有價值的細分市場的需求,從而使他們得到最大的利潤。這使他們可以更有效地制定營銷策略,並最大程度地下降投資風險。
情感被定義爲對某一狀況或事件的見解或態度;意見是數據科學領域中相當重要的話題。因爲它在當今的社交媒體時代具備很大的關聯性,而且能夠解決許多商業問題,因此成爲該領域最熱門的話題之一。
藉助情感分析,你能夠發現文檔、網站、社交媒體的時間線中所反映的觀點的性質。人們應該具備快樂、悲傷、憤怒、積極或消極、沮喪、仇恨、愛等各類情感。
在當今時代,任何數據驅動型的組織都必須重視情感分析模型的結果,藉此肯定其客戶的態度,並針對產其品或服務定位目標客戶。
一些情報機構會對 Twitter 進行情緒分析以獲取情報。
要使用的算法:
在人類的活動中,言語、場景、產品或體驗所附帶的情感決定着不少事情。
SER(語音情感識別 Speech Emotion Recognition)能夠說是今年夏天一項引人注目的數據科學項目。它試圖從語音(語音樣本)中感知人類的情感。另外爲了感知到人的情感,還將不一樣的聲音文件用做數據集。 SER 本質上是從錄音中提取情感,並專一於特徵提取。
在用 Python 處理項目時,你還能夠經過用於分析音樂和音頻的 Librosa 包積累知識。
Vox 名人數據集能夠成爲執行語音情感識別的良好起點。
用到的算法:
預測分析的目的是對將來的事件進行預測。
它涵蓋了預測模型、機器學習和數據挖掘等各類統計技術,能夠經過分析當前和歷史數據來識別風險和機會。
例子:
時間序列是按時間順序進行索引,把一系列數據點列出或繪製在圖形中。
時間序列是數據科學中最經常使用的技術之一,有着普遍的應用範圍,包括天氣預報、預測銷售、分析年趨勢、預測吸引力、網站訪問量、比賽排名等。
商業機構一次又一次地用 kon 時間序列數據來分析將來的數字。
經過時間序列分析,咱們能夠獲得每小時觀看的廣告、天天在遊戲中的花銷、產品趨勢的變化等。
迴歸分析的目的是根據歷史數據預測結果。
迴歸分析是一種強大的統計檢驗,能夠檢查兩個或多個目標變量之間的關係。儘管迴歸分析的類型有不少,但它們的核心都是檢查一個或多個自變量對目標(因變量)的影響。
例子:
用到的算法:
這取決於目標變量的性質:是數字仍是分類
推薦系統是一個使用過濾過程,並根據用戶的偏好和喜愛提供各類內容的平臺。
推薦系統把相關用戶的信息做爲輸入,並使用機器學習模型從參數評估中返回建議。從 Amazon 到 Zappos,推薦系統無處不在。這是一種數據科學家須要瞭解的典型的機器學習算法。
例如,Netflix 可以爲你推薦和瀏覽歷史記錄類似的電影或節目,或是與你愛好類似的其餘用戶過去看過的電影或節目。
推薦系統有兩種類型-
探索性數據分析(EDA)其實是數據分析過程當中的第一步。經過它你能夠充分利用所擁有的數據,弄清楚你想問什麼問題,如何構架,最好地操縱它來獲取所須要的答案。
EDA 用視覺和定量方法在現有數據中展現普遍的模式、趨勢、離羣值、意外結果等。探索性數據分析能夠完成不少項目。在此我列出一些參考,或許能成爲你的一個良好起點。