數據概覽神器—Pandas-profiling

分析一個問題,從對樣本進行探索開始。
Python中有不少經常使用的數據分析函數,能夠幫助咱們對樣本有一個初步的認識,好比describe()函數,能夠很方便地生成每一個變量的最大值、最小值、分位數等。
今天給你們介紹一個特別牛逼的函數,一行代碼就能實現原始數據集的概覽分析,進而能夠保存成html報告。
接下來揭開這個神奇函數的面紗吧
若是想看效果,可跳過第一部分的安裝庫教程。

本文目錄
  1. 安裝pandas_profiling庫css

    1.1 pip install 安裝html

    1.2 whl文件安裝python

    1.3 方法三nginx

  2. 使用pandas_profilinggit

    2.1 加載數據github

    2.2 一行代碼生成報告web

    2.3 一行代碼保存報告ruby


1、安裝pandas_profiling

 1  方法一:pip install 安裝
微信

有些小夥伴直接在cmd中運行 pip install pandas_profiling 就能夠成功安裝這個庫。app

那真的該恭喜你了。

個人運行會報以下錯誤:

因此我準備直接下載whl文件進行安裝。


 2  方法二:whl文件安裝

首先到以下網站下載whl文件:https://pypi.org/project/pandas-profiling/#files,可能會出現沒有反應的狀況,多進幾回就行了。

進去後點擊Dowload Files,下載右邊紅框中的whl文件到本地。

在whl文件所在文件夾打開cmd,運行pip install XXX.whl,有些小夥伴能夠成功安裝該庫。

個人一直安裝不了,會報以下錯誤

找了好久的資料,結合報錯的提示,終於運行完以下語句後成功安裝了pandas_profiling庫

pip install --user pandas_profiling-2.9.0-py2.py3-none-any.whl -i https://pypi.tuna.tsinghua.edu.cn/simple some-package

但是在jupyter中使用Pandas_Profiling.ProfilingReport時會報以下錯誤:concat() got an unexpected keyword argument ‘join_axes’,經查是pandas和Pandas_Profiling版本太低致使。

在cmd中運行 pip install --upgrade pandas和pip install --upgrade pandas_Profiling 便可。


 3  方法三

若是還有小夥伴安裝很差,能夠試下以下方法:

pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip


2、使用pandas_profiling

 1  加載數據

首先加載包和數據。

import pandas as pdimport pandas_profilingdf = pd.read_csv('testtdmodel.csv',sep=',',encoding='gb18030')data = df[['3個月內申請人在多個平臺申請借款', '7天內借款人手機申請借款平臺數', '1個月內借款人手機申請借款平臺數']]data = data.astype(float)


 2  一行代碼生成報告

運行以下語句能夠生成數據分析基本報告。

pandas_profiling.ProfileReport(data)
報告包含如下幾部分:

1. Overview(數據基本狀況):包括數據集中變量個數(3)、樣本行數(7252)、缺失行數(0)、缺失率(0%)、重複行數(6674)、重複率(92%)、內存佔用狀況等。

Overview中還包含了Warnings模塊,能夠點擊查看數據集的重複狀況和變量的0值個數。

2. Variables(單變量狀況):包括單變量值個數(54)、均值(3.88499)、最小值(0)、最大值(82)、缺失值(0)、缺失率(0%)等。

點擊橙色框中的Toggle details能夠獲得更詳細的單變量分析狀況。
包括一些統計指標、單變量直方圖、次數出現top的值對應占比狀況、最小的幾個值和最大的幾個值的頻率。

3.  Interactions(交互性分析):每兩個變量進行圖展現

4. Correlations(相關性分析):展現兩兩變量之間的相關性,值介於-1到1之間,小框中的顏色對應右邊的相關性數值

5.  Missing values(缺失值狀況):展現每一個變量的缺失值狀況,這裏三個變量都是7252個,不存在缺失值

6. Sample(樣本示例):展現樣本的前十行(至關於head(10))和後十行


7. Duplicate rows(重複行展現):展現重複行統計前十的行

一行代碼就能夠很方便地生成大部分咱們須要的統計指標,是否是特別實用呀?

若是咱們想把這個報告保存下來,應該怎麼辦呢?


 3  一行代碼保存報告

運行以下語句能夠保存成html報告。

data.profile_report(title='Data').to_file('Data.html')
能夠把html版的報告下載下來,發給須要使用的人,很是方便。

至此, pandas_profiling函數介紹完了,須要使用的朋友能夠早日安裝應用。
不過建議你們生成報告的字段名稱改爲英文的,避免生成的報告出現亂碼。
參考文獻:
https://www.jianshu.com/p/a1f39f57dd91https://www.cnblogs.com/hankleo/p/11728325.html
往期回顧:
3D星空圖
3D星空圖V2版
520表白代碼合集
用python繪製皮卡丘

娛樂圈排行榜動態條形圖繪製

掃一掃關注我

19967879837

投稿微信號

本文分享自微信公衆號 - 阿黎逸陽的代碼(gh_f3910c467dfe)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索