tips for pandas

pandas是一個很是優秀,強大以及靈活的python數據處理包,使用pandas能夠很是方便的讀取,整理以及存儲數據,同時搭配numpy和matplotlib,更顯強大。html

用好pandas能夠很是節省時間。python

  • 讀取csv文件
import pandas as pd
data = pd.read_csv(path_to_dataset, delimiter=',')

delimiter:識別csv文件分隔符
api說明api

  • 顯示數據前n行
data.head(n)
  • 按列查詢數據
data[column_name]
data[column_name].drop_duplicates()
course_time = date[date["course_id"]==course_id]

dorp_duplicates()的做用是去除重複
第三行代碼按照course_id去查詢數據(條件查詢)code

  • 按行查詢數據
for index, row in data.iterrows():
        id = row[0]
        username = row[1]
        course_id = row[2]
        time = row[3]
        source = row[4]
        event = row[5]
        object = row[6]

其實pandas中都是以列的方式查詢數據,若是須要按行的方式查詢也不是不能夠。pandas中提供了迭代的方式查詢,其中index指行數,row指每一行的內容,以list的形式存儲。若是須要找到具體的數據,須要對list進行解析。component

  • 時間數據轉換
course_from = pd.to_datetime(course_from)
time_from_value = time_from.components.days * 12 * 3600 + time_from.components.hours * 3600 + time_from.components.minutes * 60 + time_from.components.seconds

在計算時間差的時候,time_from_value的形式爲timeObject類型,有components方法能夠解析。htm

詳細說明查看pandas: powerful Python data analysis toolkitget

相關文章
相關標籤/搜索