- 若是你在使用 Pandas(Python Data Analysis Library) 的話,下面介紹的對你必定會有幫助的。
1. 加載 CSV
Read_csv 方法有不少參數,有效的利用這些參數能夠減輕數據預處理的工做。誰都不肯意作數據清洗,那麼咱們就在加載數據的時候作一些簡單的數據處理
有時咱們可能須要加載的 csv 太大,可能會致使內存爆掉,這時候,咱們就須要分批加載數據進行分析、處理
2. 瀏覽 DataFrame 數據
-
df.head(n):瀏覽數據的前 n 行,默認 5 行
-
df.tail(n):瀏覽數據的末尾 n 行,默認 5 行
-
df.sample(n):隨機瀏覽 n 行數據,默認 5 行
-
df.shape:tuple 類型的數據行列數,(行數,列數)
-
df.describe():計算評估數據的趨勢
-
df.info():內存和數據類型
3. 在 DataFrame 中增長列
在 DataFrame 中添加新列的操做很簡單,下面介紹幾種方式
直接增長新列並賦值
df['temp_diff'] = df['atemp'] - df['temp']
咱們僅僅根據風速,簡單判斷一下人體溫馨度,體感比較舒服的溫度是 0.3 米/秒
咱們將 season 轉換爲具體季節的名稱
4. 選擇指定單元格
相似於 Excel 單元格的選擇,Pandas 提供了這樣的功能,操做很簡單,可是我本人理解起來確實沒有操做看上去那麼簡單。Pandas 提供了三個方法作相似的操做,loc,iloc,ix,ix 官方已經不建議使用,因此咱們下面介紹 loc 和 iloc
df.loc[行索引開始位置:行索引結束位置,[列名數組]]
df.iloc[行索引開始位置:行索引結束位置,列索開始位置:列索引結束位置]
個人博客即將搬運同步至騰訊雲+社區,邀請你們一同入駐:https://cloud.tencent.com/developer/support-plan