數據科學入門 (一) —— 數據

Data Scientists - The Sexiest Job of the 21st Century。算法

背景

這是咱們公司內部的學習興趣班課程,並加以總結,加深鞏固學習效果。bash

1、什麼是數據科學

1.1 數據科學

數據科學(英語:Data Science),是一門利用數據學習知識的學科,其目標是經過從數據中提取出有價值的部分來生產數據產品。它結合了諸多領域中的理論和技術,包括應用數學,統計,模式識別,機器學習,數據可視化,數據倉庫,以及高性能計算。數據科學經過用運用各類相關的數據來幫助非專業人士理解問題。 數據科學技術能夠幫助咱們如何正確的處理數據的並協助咱們在生物,社會科學,人類學等領域進行研究調研。此外,數據科學也對商業競爭有極大的幫助。機器學習

數據科學的組成要素能夠從下面這個維恩圖獲得線索。它包括了計算機技巧,數學和統計知識,實質性的專業知識。性能

數據科學
數據科學

你不必定要擁有計算機科學的學歷,但數據是電子化交易的商品,因此你須要瞭解一些開發技能。這些技能包括:Linux 知識,可以操縱文本文件的命令行,瞭解矢量操做,算法的思想,這些技巧都是數據極客所須要的。學習

一旦你已經得到並清理好數據,下一步就是從中提取有用的知識。此時你須要運用適當的數學和統計方法。這並非說你要成爲統計學博士,但你確實須要知道普通最小二乘迴歸之類的東西,以及如何解釋其結果。大數據

在第三個關鍵是專業領域的知識背景。若是數據分析只是你的業餘愛好,那麼只搗鼓數學、機器學習和統計數據也就夠了。但若是你從事數據科學的工做,這就要求從專業背景上提出問題,並用數據和統計方法進行檢驗,這樣才能真正的發現並構建知識。spa

最後,要注意的是黑客技能加專業知識的危險區。這裏所描述的是那些「半桶水專家」,他們知道如何獲得合適的數據,甚至掌握如何用R語言進行線性迴歸並報告係數,但他們不理解那些係數的真正含義。在不瞭解內在統計意義時進行數據分析是危險的,這也是數據分析常常被濫用狀況。命令行

1.2 數據科學家

數據科學家是一名負責收集,分析和解讀大量數據的專業人士,以肯定幫助業務改善運營並得到競爭對手競爭優點的方法。
數據科學家的角色是統計學家角色的分支,包括使用先進的分析技術,包括機器學習和預測建模 ,提供超越統計分析的看法。 數據科學技能的需求近年來有顯着增加,由於企業但願經過大量企業生產和收集的大量結構化, 非結構化和半結構化數據(統稱爲大數據)來收集有用的信息。 3d

1.3 數據科學家須要的特質

  • 好奇心 — 數據科學家傾向於用探索數據的方式來看待周圍的世界。code

  • 問題分體整理能力 — 把大量散亂的數據變成結構化的可供分析的數據,還要找出豐富的數據源,整合其餘可能不完整的數據源,並清理成結果數據集。

  • 快速學習能力 — 新的競爭環境中,挑戰不斷地變化,新數據不斷地流入,數據科學家須要幫助決策者穿梭於各類分析,從臨時數據分析到持續的數據交互分析。

  • 問題轉化能力 — 數據科學家會遇到技術瓶頸,但他們可以找到新穎的解決方案。

  • 業務精通 — 當他們有所發現,便交流他們的發現,建議新的業務方向。

  • 表現溝通能力 — 他們頗有創造力的展現視覺化的信息,也讓找到的模式清晰而有說服力。

整體來講,能拿到數據的能力,能理解數據、處理數據、從中抽取價值、可視化數據並能和別人交流結果,將會是下一個十年裏極度重要的技能。

2、 數據裏的科學

2.1 什麼是數據?

數據是咱們對咱們所處的世界的描述,除了咱們最多見數字以外,包括文字、圖片、語音和視頻都是各類類型的數據。

2.2 爲何要使用數據?

計算機世界裏的數據是由一串串二進制的數字構成,對咱們來講他們只是一堆冰冷的數據,並不能告訴咱們任何信息。

數據
數據

數據:就如同下方一組溫度數據,在我不告訴你數據的上下文(context)以前,你也許會認爲這是病人發高燒的體溫記錄。其實這些是一組鴨子的體溫測量記錄,全都在正常範圍內。就如同上面所說的,數據在沒有上下文的狀況下,不能告訴咱們任何信息。

41.5℃ 40.6℃ 41.1℃ 39.9℃ 41.9℃ 40.9℃

信息:信息泛指人類社會傳播的一切內容。人經過得到、識別天然界和社會的不一樣信息來區別不一樣事物,得以認識和改造世界。信息與知識的不一樣之處在於,人天天都能收集到各類信息,但這些信息不必定真實可信,虛假信息明顯不可能成爲知識,只有獲得社會公認的信息才能稱之爲知識,人們經過收集這些被公認的知識來構建本身的知識體系。

知識:經過本身的知識,咱們能判斷一些信息的真僞,舉個栗子:路人甲告訴你明天的氣溫是200℃,這顯然是不可信的;

再舉個栗子:果蔬公司的領導說今年的業績要同比提升50%,也許新員工一聽這個業績目標會被驚呆。但是在老員工的內心默默的算了一筆帳,去年因爲受天然災害的影響,公司的業績相比前年一落千丈,今年的雨水豐沛,也沒有天然災害影響,要達到這個目標並不難。老員工在基於本身果蔬行業的知識體系和去年是受災減產這一上下文,得出與新員工截然相反的結論。

智慧:以前所說的數據、信息和知識都是已經發生或存在的,而智慧是挖掘藏在數據裏面的信息,而且利用咱們的知識體系對未知的事物進行預測,而這也是最值得期待的部分。

2.3 數據的測量尺度

參考下方圖表,定類和定序比較容易理解。而定距常見於攝氏度和公元紀年,你不能說21℃溫度是10℃溫度的2倍,你只能說21℃溫度比10℃高11℃,只能表達他們的間距。而定比是能夠說倍數的,金額、重量等數據均可以使用定比方式來測量。

測量尺度 特色 可用的數學運算 例子 展現方式
定類數據(nominal scale) 分類型的,你們無高低貴賤之分 =, != 性別、商品類別、配送方式 直方圖、餅圖、柱圖、雷達圖
定序數據(ordinal scale) 可比較,有層級了 =, !=, >, < 商品評分、配送評分、用戶等級 箱線圖
定距數據(interval scale) 間隔一致,無絕對0點 =, !=, >, <, +, - 攝氏溫度、公元紀年 線圖
定比數據(ratio scale) 有絕對0點,能夠說幾倍數 =, !=, >, <, +, -, ×, ÷ 開爾文溫度、重量、金額 不少 ……

2.4 數據的時間維度

針對不一樣分析需求,數據一般能夠分兩個時間維度進行分析:

  • 時間截面:在某一個時間點,用戶的訂單單數據。
  • 時間序列:某一個用戶,最近一年的訂單數據。

2.5 數據的集中趨勢和離散程度

  • 衆數:出現次數最多數
  • 中位數:排序後處於中間位置的數
  • 均值:全部數平均值
  • 方差:全部值與平均數的差的平方的總和除以值的個數
  • 標準差:方差的平方根

下面這一組數據衆數爲225,中位數爲225,均值爲225.10,標準差爲21.07

225, 232, 232, 245, 235, 245, 270, 225, 240, 243, 
217, 195, 225, 185, 200, 198, 197, 210, 271, 240,
 220, 230, 215, 252, 225, 220, 206, 192, 227, 236複製代碼

2.5 數據的分佈

  • 正態分佈 具備集中性 ,正態曲線的高峯位於正中央,即均數所在的位置,像人的身高和體重數據都符合正態分佈曲線,越接近平均身高時人數越多。

正態分佈
正態分佈

  • 冪分佈 19世紀的意大利經濟學家Pareto研究了我的收入的統計分佈,發現少數人的收入要遠多於大多數人的收入,提出了著名的80/20 法則,即20%的人口占據了80%的社會財富。該數據即符合冪分佈。

冪分佈
冪分佈

  • 指數分佈 的圖形表面上看與冪律分佈很類似,實際二者有極大不一樣,指數分佈的收斂速度遠快過冪律分佈。指數分佈是一種連續機率分佈。指數分佈能夠用來表示獨立隨機事件發生的時間間隔,好比旅客進機場的時間間隔。

指數分佈
指數分佈

3、數據分析

3.1 還原數據背後的真實

  • 元數據 —— 有場景上下文嗎?

  • 數據缺失 —— 收集到了嗎?收集到的數據完整嗎?

  • 數據異常 —— 根據的的知識來判斷,數據收集對了嗎?

  • 是你想要的嗎?

3.1 設定數據分析步驟

a. 設定一個分析目標:分析近6個月的工做質量。
b. 影響該目標的指標:任務數量,任務難度,任務成功率。
c. 分析每項指標類型: 任務數量爲定比類型,難度爲定序類型,成功率爲定比類型。
d. 找到指標影響目標的公式:任務數量 任務難度 任務成功率。
e. 驗證你獲得的結果。

4、展現數據

4.1 錯誤示範

  1. 用戶對咱們物流小哥的評價平均是4.57。
  2. 上海人民最幸福,家庭平均月收入是50000元。
  3. 育才中學的小明成績全市第一,因此育才中學教學質量很是好。

4.2 正確示範

  1. 用戶對咱們物流小哥的評價次數最多的是5分,佔比81%。
  2. 上海人民最幸福,全部家庭月收入中位數是9200元,衆數是9000。
  3. 育才中學的學平生均成績全市第一,因此育才中學教學質量很是好。

小結

在這門課程中,須要學習的不只僅是理論知識,還有思惟轉變,從「我以爲」或「我猜想「到「基於以上論證,我判斷」的轉變。

後面有時間會繼續寫點深刻的知識點🙏。

相關文章
相關標籤/搜索