想瀏覽數據？一行Python代碼就能輕鬆搞定

時間 2019-11-25

標籤瀏覽數據一行 python 代碼輕鬆搞定欄目 Python 简体版

原文原文鏈接

全文共1382字，預計學習時長3分鐘git

30秒內就能分析全部標準數據，Pandas_Profiling數據預覽神器真是太讚了。github

vanilla pandas方式（無趣）bash

若是你Python分析過數據，那你必定對pandas包不會陌生。pandas是處理大多數行和列格式化數據時首選的軟件包，若是尚未pandas包，那你必定要在首選終端上經過pip安裝來下載：微信

pip install pandas學習

如今，看一下經過pandas默認操做咱們能幹點什麼：人工智能

挺好的，但少了點東西。「method」列跑哪了？spa

還沒反應過來的朋友們請看這裏：code

pandas的任何一組「數據框」都會有一個.describe()法，能夠返回上述總結。但要注意該法的輸出：種類變量這一項不見了。上面例子中「method」列從輸出中徹底省掉了！orm

若是能作得更好會是什麼樣子？cdn

Pandas_Profiling數據預覽（妙不可言）

這只是報告的開始。

假若僅需3行Ptyhon代碼就能得出下列統計結果，你會有何感覺？（實際上不算輸入內容的話1行就夠了）：

• 基本項：類型、特殊值、缺失值

• 分位數統計，如最小值、Q一、中位數、Q三、最大值、範圍、四分位差

• 描述性統計，如平均值、模型、標準誤差、和、中值絕對誤差、變異係數、峯度、偏度

• 最多見值

• 直方圖

• 相互關係：突出顯示了變量、Spearman相關係數、Pearson相關係數、Kendall矩陣之間的高度相關性

• 缺失值：矩陣、計數、熱圖以及缺失值樹狀圖

特徵值表直接從Pandas Profiling GitHub得來：https://github.com/pandas-profiling/pandas-profiling

經過使用Pandas_Profiling包，咱們能夠實現這些操做！

想安裝Pandas_Profiling包的話只需在終端藉助pip便可：

pip install pandas_profiling

經驗豐富的數據分析師一開始看到這種數據預覽時會很不屑，以爲太誇張了，不切實際。但它確實可使你在短期內對數據造成一個大體印象：

看到了吧， 1行代碼足以搞定！#noclickbait

最早看到的是總覽（Overview，如上圖所示），其中有數據和變量的一些高級統計，也包括一些警告，好比變量間的相關度高、偏度大等。

但這並非全部內容，往下看會發現還有不少本文的相關部分。單憑一張輸出結果（由1行代碼獲得）的圖片看不出什麼，因此筆者將其換成了動圖：

強烈建議你們探索一下這個包的功能，畢竟雖然說僅僅是1行代碼，但說不定在之後作數據分析時會發現它很是有用。

import pandas as pd
import pandas_profiling
pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn- data/master/planets.csv').profile_report()複製代碼

留言點贊關注

咱們一塊兒分享AI學習與發展的乾貨
歡迎關注全平臺AI垂類自媒體「讀芯術」

（添加小編微信：dxsxbb，加入讀者圈，一塊兒討論最新鮮的人工智能科技哦～）

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。