用一行Python進行數據收集探索

簡易的Pandas之路

任何使用Python數據的人都會熟悉Pandas包。Pandas是大多數行和列格式數據的go-to包。若是你沒有Pandas,請確保在終端中使用pip install安裝:python

pip install pandas
複製代碼

如今,讓咱們看看Pandas包中的默認方法能夠作些什麼:git

如下內容寫給不知道上面發生了什麼的新手:github

任何Pandas數據幀都有一個.descripe()返回上面的輸出的方法。可是,此方法中沒有注意到分類變量。在上面的示例中,輸出中徹底省略了「 method 」列。bash

讓咱們看看能不能解決這個問題。網絡


Pandas分析

若是我告訴你僅用3行Python就能夠產生如下統計信息,你會怎麼想?但其實,若是不計算imports的話,整體上只用1行就夠。spa

  • 要點:類型,惟一值,缺失值
  • 分位數統計信息:例如最小值,Q1,中位數,Q3,最大值,範圍,四分位數範圍
  • 描述性統計數據:例如平均值,衆數,標準誤差,總和,中位數絕對誤差,變異係數,峯度,偏度
  • 經常使用值
  • 直方圖
  • 高相關變量Spearman,Pearson和Kendall矩陣的相關性突出顯示
  • 缺失值矩陣,計數,熱圖和缺失值樹狀圖

(功能列表直接來自Pandas Profiling GitHub)3d

好吧,咱們可使用Pandas Profiling軟件包!要安裝Pandas Profiling軟件包,只需在終端中使用pip install便可:code

pip install pandas_profiling
複製代碼

經驗豐富的數據分析人員可能會由於這些數據的鬆散甚至乍一看之下的「華而不實」而嗤之以鼻,但這對於快速得到數據的第一手印象確定是有用的:cdn

咱們首先看到的是概述,其中提供了關於數據和變量的一些很是高級的統計信息,以及變量之間的高相關性、高偏態性的警告等。blog

但這還不算什麼。向下滾動咱們會發現報告有多個部分,若是隻是簡單地用圖片展現這個1行程序的輸出是不足以徹底呈現這些內容的,因此我製做了一個gif:

我強烈建議你們本身去探索一下這個包的特性,畢竟,這裏提到的只是一行代碼,在未來 的數據分析中,這個包可能會對你很是有用。

import pandas as pd
import pandas_profiling
pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/planets.csv').profile_report()
複製代碼

原文連接:towardsdatascience.com/exploring-y…

以上信息來源於網絡,由「京東雲開發者社區」公衆號編輯整理,不表明京東雲立場。

點擊「京東雲」瞭解京東雲數據工廠產品

相關文章
相關標籤/搜索