Python與Excel之間的交互

數據處理是 Python 的一大應用場景,而 Excel 則是最流行的數據處理軟件。所以用 Python 進行數據相關的工做時,不免要和 Excel 打交道。
若是僅僅是要以表單形式保存數據,能夠藉助 CSV 格式(一種以逗號分隔的表格數據格式)進行處理,Excel 也支持此格式。但標準的 Excel 文件(xls/xlsx)具備較複雜的格式,並不方便像普通文本文件同樣直接進行讀寫,須要藉助第三方庫來實現。
經常使用的庫是 python-excel 系列:
xlrd、xlwt、xlutilspython

  • xlrd - 讀取 Excel 文件
  • xlwt - 寫入 Excel 文件
  • xlutils - 操做 Excel 文件的實用工具,如複製、分割、篩選等
    儘管這是目前被用得最多的 Excel 庫,我仍是很想吐槽爲何這三個包不能放在一個模塊裏……另外它們有個缺陷,就是隻能處理 xls 文件。若是你想用新版本的 xlsx,能夠考慮 openpyxl 和 xlsxwriter。
    不過今天只說說這三個。
    安裝

安裝的方法沒啥特別的,只是得裝三遍。能夠下載安裝包、下載代碼壓縮包、或者經過 pip 等。可參考 如何安裝 Python 的第三方模塊 - Crossin的編程教室 - 知乎專欄
若是安裝過以前推薦的 anaconda,那麼就已經有了 xlrd 和 xlwt,但 xlutils 沒有附帶在安裝包中,使用時仍需另行安裝。
讀取編程

結合一段簡單的代碼來看:
import xlrd # 打開 xls 文件 book = xlrd.open_workbook("test.xls") print "表單數量:", book.nsheets print "表單名稱:", book.sheet_names() # 獲取第1個表單 sh = book.sheet_by_index(0) print u"表單 %s 共 %d 行 %d 列" % (sh.name, sh.nrows, sh.ncols) print "第二行第三列:", sh.cell_value(1, 2) # 遍歷全部表單 for s in book.sheets(): for r in range(s.nrows): # 輸出指定行 print s.row(r)
測試文件:工具

輸出結果:
表單數量: 2
表單名稱: [u'Group.A', u'Group.B']
表單 Group.A 共 7 行 3 列
第二行第三列: 15.0
[text:u'Rank', text:u'Team', text:u'Points']
[number:1.0, text:u'Brazil', number:15.0]
[number:2.0, text:u'Russia', number:12.0]
...
經常使用的方法:測試

  • open_workbook 打開文件
  • sheet_by_index 獲取某一個表單
  • sheets 獲取全部表單
  • cell_value 獲取指定單元格的數據
    寫入

仍是看代碼:
import xlwt # 建立 xls 文件對象 wb = xlwt.Workbook() # 新增一個表單 sh = wb.add_sheet('A Test Sheet') # 按位置添加數據 sh.write(0, 0, 1234.56) sh.write(1, 0, 8888) sh.write(2, 0, 'hello') sh.write(2, 1, 'world') # 保存文件 wb.save('example.xls')
生成文件:excel

經常使用的方法:orm

  • Workbook 建立文件對象
  • add_sheet 新增一個表單
  • write 在指定單元格寫入數據
    修改

很遺憾,並無直接修改 xls 文件的方法。一般的作法是,讀取出文件,複製一份數據,對其進行修改,再保存。
在複製時,須要用到 xlutils 中的方法。
from xlrd import open_workbook from xlutils.copy import copy # 打開文件 rb = open_workbook("example.xls") # 複製 wb = copy(rb) # 選取表單 s = wb.get_sheet(0) # 寫入數據 s.write(0, 1, 'new data') # 保存 wb.save('example.xls')
修改後文件:對象

特別要注意的是,選取讀取表單時,要使用 sheet_by_index,而在選取寫入表單時,則要用 get_sheet。不要問我爲何,我也很想知道這麼設定的用意何在……
時間轉換ip

若是表單中有時間格式的數據,經過處理以後,你會發現時間數據出了差錯。get

輸出單元格內容:
[number:8888.0, xldate:42613.0]
由於這裏 xldate 有本身的格式定義。若是要使用正確的格式,必須轉換:
new_date = xlrd.xldate.xldate_as_datetime(date, book.datemode)
date 是對應單元格的數據,book 是打開的文件對象。
另外,在打開文件時,加上參數 formatting_info=True,能夠保證在時間數據在 copy 時保持原樣。
寫入時間數據,則可經過此方法建立 excel 的時間對象:
xlrd.xldate.xldate_from_datetime_tuple
或者經過 xlwt.easyxf 指定時間格式:
style = xlwt.easyxf(num_format_str='D-MMM-YY') ws.write(1, 0, datetime.now(), style)
具體細節及更多功能這裏不展開說明。it

相關文章
相關標籤/搜索