想瀏覽數據?一行Python代碼就能輕鬆搞定

全文共1382字,預計學習時長3分鐘git

30秒內就能分析全部標準數據,Pandas_Profiling數據預覽神器真是太讚了。github

vanilla pandas方式(無趣)bash

若是你Python分析過數據,那你必定對pandas包不會陌生。pandas是處理大多數行和列格式化數據時首選的軟件包,若是尚未pandas包,那你必定要在首選終端上經過pip安裝來下載:微信

pip install pandas學習

如今,看一下經過pandas默認操做咱們能幹點什麼:人工智能

挺好的,但少了點東西。「method」列跑哪了?spa

還沒反應過來的朋友們請看這裏:code

pandas的任何一組「數據框」都會有一個.describe()法,能夠返回上述總結。但要注意該法的輸出:種類變量這一項不見了。上面例子中「method」列從輸出中徹底省掉了!orm

若是能作得更好會是什麼樣子?cdn

Pandas_Profiling數據預覽(妙不可言)

這只是報告的開始。

假若僅需3行Ptyhon代碼就能得出下列統計結果,你會有何感覺?(實際上不算輸入內容的話1行就夠了):

• 基本項:類型、特殊值、缺失值

• 分位數統計,如最小值、Q一、中位數、Q三、最大值、範圍、四分位差

• 描述性統計,如平均值、模型、標準誤差、和、中值絕對誤差、變異係數、峯度、偏度

• 最多見值

• 直方圖

• 相互關係:突出顯示了變量、Spearman相關係數、Pearson相關係數、Kendall矩陣之間的高度相關性

• 缺失值:矩陣、計數、熱圖以及缺失值樹狀圖

特徵值表直接從Pandas Profiling GitHub得來:https://github.com/pandas-profiling/pandas-profiling

經過使用Pandas_Profiling包,咱們能夠實現這些操做!

想安裝Pandas_Profiling包的話只需在終端藉助pip便可:

pip install pandas_profiling

經驗豐富的數據分析師一開始看到這種數據預覽時會很不屑,以爲太誇張了,不切實際。但它確實可使你在短期內對數據造成一個大體印象:

看到了吧, 1行代碼足以搞定!#noclickbait

最早看到的是總覽(Overview,如上圖所示),其中有數據和變量的一些高級統計,也包括一些警告,好比變量間的相關度高、偏度大等。

但這並非全部內容,往下看會發現還有不少本文的相關部分。單憑一張輸出結果(由1行代碼獲得)的圖片看不出什麼,因此筆者將其換成了動圖:

強烈建議你們探索一下這個包的功能,畢竟雖然說僅僅是1行代碼,但說不定在之後作數據分析時會發現它很是有用。

import pandas as pd
import pandas_profiling
pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn- data/master/planets.csv').profile_report()複製代碼

留言 點贊 關注

咱們一塊兒分享AI學習與發展的乾貨
歡迎關注全平臺AI垂類自媒體 「讀芯術」


(添加小編微信:dxsxbb,加入讀者圈,一塊兒討論最新鮮的人工智能科技哦~)

相關文章
相關標籤/搜索