好物推薦！Python的datatable程序包概述

時間 2019-12-07

標籤好物推薦 python datatable 程序概述欄目 Python 简体版

原文原文鏈接

全文共5270字，預計學習時長11分鐘或更長html

圖片來源：pexels.com/@divinetechygirllinux

從文明之初到2003年，只創造了5艾字節的信息，可是如今每兩天就有如此之多的信息產生。git

埃裏克·施密特（Eric Schmidt）

若是你是R使用者，可能你已經使用過data.table程序包。Data.table是R中數據幀程序包的延伸。涉及大型數據（包括RAM中1的10GB）快速集合時，該數據包也是R使用者的首選程序包。github

R的data.table程序包使用簡易方便，很是通用且擁有高性能。在R領域，此包十分出名，其每個月下載量超過了4萬，幾乎650 CRAN（新型無線接入網構架）及Bioconductor包使用這個datatable包。算法

因此，Python使用者能夠從中獲得什麼？好消息是Python中也有與data.table等同的程序包，稱爲datatable，其明確注重大數據支持、高性能、內存外存數據集以及多線程算法。某種程度上來講，這個也能夠稱爲data.table的年輕同胞。shell

Datatable編程

現代機器學習應用須要處理巨大數量的數據並生成多個功能。爲了構建更精確的模型，這是必需的。Python的datatable模塊正是爲了應對這種類問題而建立的。這就至關因而一個在單節機器上以儘量最大的速度運行大數據（達100GB）的工具包。datatable由H2O.ai 出資開發，其首個使用者是 Driverless.ai。數組

此工具箱與panda很是類似，但更側重於速度和大數據支持。bash

Pythondatatable也力求用戶良好體驗，反饋錯誤信息，擁有強大的API（應用程序編程接口）。經過本文，能夠了解如何使用此datatable以及其用於大數據時是如何優於pandas的。微信

安裝

在MacOs中，datatable可簡單地利用pip進行安裝：

pip install datatable複製代碼

在Linux中，利用二進制發行版，就能夠實現安裝，以下所示：

# If you have Python 
3.5pip install https://s3.amazonaws.com/h2o-
release/datatable/stable/datatable-
0.8.0/datatable-0.8.0-cp35-cp35m-linux_x86_64.whl
# If you have Python 3.6pip 
nstall https://s3.amazonaws.com/h2o-
release/datatable/stable/datatable-0.8.0/
datatable-0.8.0-cp36-cp36m-linux_x86_64.whl複製代碼

目前，datatable還未能運用於Windows，可是其也正在實現對Windows的支持。

Github Repository傳送門：https://github.com/parulnith/An-Overview-of-Python-s-Datatable-package

讀取數據

使用的數據集來自於Kaggle網，屬於Lending Club Loan DataDataset。此數據集是2007——2015年全部發布的貸款信息中完整的貸款數據，包括當前貸款情況（當前、滯後、所有付清等）以及最想念付款信息。此文件包含226萬行，145列。數據規模是datatable庫性能的最理想說明。

# Importing necessary Libraries複製代碼

import numpy as npimport pandas as pdimport datatable as dt複製代碼

將數據加載到Frame對象中。datatable的基本分析單元就是一個Frame，這和pandas 的DataFrame 或 SQL 表是相同的概念：數據排列成具備行和列的二維數組。

利用datatable

%%time
datatable_df = dt.fread("data.csv")
__________________________________CPU times: user 
30 s, sys: 3.39 s, total: 33.4 s        
Wall time: 23.6 s複製代碼

上述fread() 函數不只功能強大，並且速度極快。其可自動刪除和分析絕大多數文本文件、.zip壓縮文檔中的下載數據或URLs、讀取Excel文件以及其餘文件。

不只如此，datatable分析程序還有如下功能：

· 能夠自動刪除分隔符、頁眉、列類型以及引號規則等。

· 能夠多源讀取數據，包括包括文件、URL、shell、原始文本、存檔和glob。

· 極速多線程文件讀取。

· 顯示讀取文件的進度條。

· 能夠讀取 RFC4180相容型及非相容型文件。（傳送門：https://tools.ietf.org/html/rfc4180）

用pandas

如今，計算一下利用pandas來讀取相同文件所用的時間。

%%timepandas_df= pd.read_csv("data.csv")
__________________________________
CPU times: user 47.5 s, sys: 12.1 s, 
otal: 59.6 sWall time: 1min 4s複製代碼

結果顯示，datatable在讀取大數據集時優於pandas。由於都i相同數據時，pandas讀取時間超過了一分鐘，而datatable則只使用了數秒。

Frame轉換

現有的Frame還能夠以下所示轉化爲numpy或dateframe。

numpy_df = datatable_df.to_numpy()pandas_df = datatable_df.to_pandas()複製代碼

如今將現有frame轉化爲pandas的dataframe對象那個，對比所用時間。

%%time
datatable_pandas = datatable_df.to_pandas()
__________________________________
CPU times: user 17.1 s, sys: 4 s, total: 21.1 sWall time: 21.4 s複製代碼

看來將文件讀取爲datatable框架，而後將其轉換爲panda的dataframe所需的時間比直接利用pandas的dataframe讀取文件所需的時間要少。因此，經過datatable導入一個大數據文件，而後將其轉換爲panda的dataframe，這彷佛是一個好主意。

type(datatable_pandas)__________________________________pandas.core.frame.DataFrame複製代碼

基礎Frame屬性

一塊兒來看看與pandas性能類似的datatable fame的基礎性能。

print(datatable_df.shape)       
# (nrows, ncols)print(datatable_df.names[:5]) 
# top 5 column namesprint(datatable_df.stypes[:5]) 
# column types(top 5)
__________________________________
(2260668, 145)('id', 'member_id', 
'loan_amnt', 'funded_amnt', 'funded_amnt_inv')
(stype.bool8, stype.bool8, stype.int32, 
stype.int32, stype.float64)複製代碼

也可利用head 指令輸出靠前的「n」行。

datatable_df.head(10)複製代碼

datatableframe中前10行略表

顏色表示數據類型。其中，紅色表示字符串，綠色表示整數，藍色則表明浮動。

彙總統計信息

在panda中計算彙總統計信息是一個消耗內存的過程，但在datatable中就不是如此了。下面每列彙總信息都可經過datatable來計算：

datatable_df.sum()      
datatable_df.nunique()datatable_df.sd()       
datatable_df.max()datatable_df.mode()     
datatable_df.min()datatable_df.nmodal()   
datatable_df.mean()複製代碼

利用datatable和pandas來計算平均值，測量各所需計算時間之間的差別。

利用datatable

%%timedatatable_df.mean()
__________________________________
CPU times: user 5.11 s, sys: 51.8 ms, 
total: 5.16 sWall time: 1.43 s複製代碼

利用pandas

pandas_df.mean()__________________________________Throws memory error.複製代碼

上述指令在pandas中未能實現，由於其在開始就顯示內存錯誤。

數據操做

像dataframe這類數據表是柱狀數據結構。在datatable中，全部操做最基礎的媒介就是方括號符號，即傳統矩陣索引，只不過其具有更多的功能。

datatable中的方括號符號

在指數矩陣、C/C++, R, pandas, numpy等數學運算中利用相同的DT[i, j]符號。來看看如何利用datatable執行常見的數據操做活動：

#選擇行/列子集

下列代碼從數據集中選擇全部的行及 funded_amnt列。

datatable_df[:,'funded_amnt']複製代碼

這裏展現了是如何選取5行及3列的。

datatable_df[:5,:3]複製代碼

#Frame排序

利用datatable

經過datatable完成利用特定列隊frame的排序，以下所示：

%%timedatatable_df.sort('funded_amnt_inv')
__________________________________
CPU times: user 534 ms, sys: 67.9 ms, total: 602 msWall time: 179 ms複製代碼

利用pandas

%%timepandas_df.sort_values(by = 'funded_amnt_inv')
__________________________________
CPU times: user 8.76 s, sys: 2.87 s, total: 11.6 sWall time: 12.4 s複製代碼

關注datatable和pandas大量的時間差別。

#刪除行/列

這裏闡述瞭如何刪除名爲member_id的列：

del datatable_df[:, 'member_id']複製代碼

#分組

就像在pandas中的同樣，datatable也有分組功能。來看看如何利用grade列來對funded_amount列平均值進行分組。

利用datatable

%%timefor i in range(100):    
pandas_df.groupby("grade")["funded_amnt"].sum()
__________________________________
CPU times: user 12.9 s, sys: 859 ms, total: 13.7 sWall time: 13.9 s複製代碼

.f表明什麼？

f表明frame proxy，提供一種簡單的方法來使用當前操做的Frame。就例子而言，dt.f表明dt_df。

#篩選行

篩選行的句法與分組類似。對loan_amnt的這些行進行篩選，其中，loan_amnt的值大於funded_amnt。

datatable_df[t.f.loan_amnt>dt.f.funded_amnt,"loan_amnt"複製代碼

儲存Frame

圖片來源：unsplash.com/@pinewatt

還能夠將Frame的內容寫入csv文件，以便未來使用

datatable_df.to_csv('output.csv')複製代碼

documentation傳送門，瞭解更多操做功能：https://datatable.readthedocs.io/en/latest/using-datatable.html

結論

與默認的Panda相比，datatable模塊無疑加快了執行速度，這在處理大型數據集時無疑是一個優點所在。然而，datatable在功能方面卻落後於Panda。可是，因爲仍在積極地開發datatable，未來可能會增長一些庫。

留言點贊關注

咱們一塊兒分享AI學習與發展的乾貨

歡迎關注全平臺AI垂類自媒體「讀芯術」

（添加小編微信：dxsxbb，加入讀者圈，一塊兒討論最新鮮的人工智能科技哦～）

相關標籤/搜索