全文共1382字,預計學習時長3分鐘git
30秒內就能分析全部標準數據,Pandas_Profiling數據預覽神器真是太讚了。github
vanilla pandas方式(無趣)bash
若是你Python分析過數據,那你必定對pandas包不會陌生。pandas是處理大多數行和列格式化數據時首選的軟件包,若是尚未pandas包,那你必定要在首選終端上經過pip安裝來下載:微信
pip install pandas學習
如今,看一下經過pandas默認操做咱們能幹點什麼:人工智能
挺好的,但少了點東西。「method」列跑哪了?spa
還沒反應過來的朋友們請看這裏:code
pandas的任何一組「數據框」都會有一個.describe()法,能夠返回上述總結。但要注意該法的輸出:種類變量這一項不見了。上面例子中「method」列從輸出中徹底省掉了!orm
若是能作得更好會是什麼樣子?cdn
Pandas_Profiling數據預覽(妙不可言)
這只是報告的開始。
假若僅需3行Ptyhon代碼就能得出下列統計結果,你會有何感覺?(實際上不算輸入內容的話1行就夠了):
• 基本項:類型、特殊值、缺失值
• 分位數統計,如最小值、Q一、中位數、Q三、最大值、範圍、四分位差
• 描述性統計,如平均值、模型、標準誤差、和、中值絕對誤差、變異係數、峯度、偏度
• 最多見值
• 直方圖
• 相互關係:突出顯示了變量、Spearman相關係數、Pearson相關係數、Kendall矩陣之間的高度相關性
• 缺失值:矩陣、計數、熱圖以及缺失值樹狀圖
特徵值表直接從Pandas Profiling GitHub得來:https://github.com/pandas-profiling/pandas-profiling
經過使用Pandas_Profiling包,咱們能夠實現這些操做!
想安裝Pandas_Profiling包的話只需在終端藉助pip便可:
pip install pandas_profiling
經驗豐富的數據分析師一開始看到這種數據預覽時會很不屑,以爲太誇張了,不切實際。但它確實可使你在短期內對數據造成一個大體印象:
看到了吧, 1行代碼足以搞定!#noclickbait
最早看到的是總覽(Overview,如上圖所示),其中有數據和變量的一些高級統計,也包括一些警告,好比變量間的相關度高、偏度大等。
但這並非全部內容,往下看會發現還有不少本文的相關部分。單憑一張輸出結果(由1行代碼獲得)的圖片看不出什麼,因此筆者將其換成了動圖:
強烈建議你們探索一下這個包的功能,畢竟雖然說僅僅是1行代碼,但說不定在之後作數據分析時會發現它很是有用。
import pandas as pd
import pandas_profiling
pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn- data/master/planets.csv').profile_report()複製代碼
留言 點贊 關注
咱們一塊兒分享AI學習與發展的乾貨
歡迎關注全平臺AI垂類自媒體 「讀芯術」
(添加小編微信:dxsxbb,加入讀者圈,一塊兒討論最新鮮的人工智能科技哦~)