pandas是一個很是優秀,強大以及靈活的python數據處理包,使用pandas能夠很是方便的讀取,整理以及存儲數據,同時搭配numpy和matplotlib,更顯強大。html
用好pandas能夠很是節省時間。python
import pandas as pd data = pd.read_csv(path_to_dataset, delimiter=',')
delimiter:識別csv文件分隔符
api說明api
data.head(n)
data[column_name] data[column_name].drop_duplicates() course_time = date[date["course_id"]==course_id]
dorp_duplicates()的做用是去除重複
第三行代碼按照course_id去查詢數據(條件查詢)code
for index, row in data.iterrows(): id = row[0] username = row[1] course_id = row[2] time = row[3] source = row[4] event = row[5] object = row[6]
其實pandas中都是以列的方式查詢數據,若是須要按行的方式查詢也不是不能夠。pandas中提供了迭代的方式查詢,其中index指行數,row指每一行的內容,以list的形式存儲。若是須要找到具體的數據,須要對list進行解析。component
course_from = pd.to_datetime(course_from) time_from_value = time_from.components.days * 12 * 3600 + time_from.components.hours * 3600 + time_from.components.minutes * 60 + time_from.components.seconds
在計算時間差的時候,time_from_value的形式爲timeObject類型,有components方法能夠解析。htm