任何使用Python數據的人都會熟悉Pandas包。Pandas是大多數行和列格式數據的go-to包。若是你沒有Pandas,請確保在終端中使用pip install安裝:python
pip install pandas
複製代碼
如今,讓咱們看看Pandas包中的默認方法能夠作些什麼:git
如下內容寫給不知道上面發生了什麼的新手:github
任何Pandas數據幀都有一個.descripe()返回上面的輸出的方法。可是,此方法中沒有注意到分類變量。在上面的示例中,輸出中徹底省略了「 method 」列。bash
讓咱們看看能不能解決這個問題。網絡
若是我告訴你僅用3行Python就能夠產生如下統計信息,你會怎麼想?但其實,若是不計算imports的話,整體上只用1行就夠。spa
(功能列表直接來自Pandas Profiling GitHub)3d
好吧,咱們可使用Pandas Profiling軟件包!要安裝Pandas Profiling軟件包,只需在終端中使用pip install便可:code
pip install pandas_profiling
複製代碼
經驗豐富的數據分析人員可能會由於這些數據的鬆散甚至乍一看之下的「華而不實」而嗤之以鼻,但這對於快速得到數據的第一手印象確定是有用的:cdn
咱們首先看到的是概述,其中提供了關於數據和變量的一些很是高級的統計信息,以及變量之間的高相關性、高偏態性的警告等。blog
但這還不算什麼。向下滾動咱們會發現報告有多個部分,若是隻是簡單地用圖片展現這個1行程序的輸出是不足以徹底呈現這些內容的,因此我製做了一個gif:
我強烈建議你們本身去探索一下這個包的特性,畢竟,這裏提到的只是一行代碼,在未來 的數據分析中,這個包可能會對你很是有用。
import pandas as pd
import pandas_profiling
pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/planets.csv').profile_report()
複製代碼
原文連接:towardsdatascience.com/exploring-y…
以上信息來源於網絡,由「京東雲開發者社區」公衆號編輯整理,不表明京東雲立場。
點擊「京東雲」瞭解京東雲數據工廠產品