爬蟲之操做excel

時間 2019-11-20

原文原文鏈接

幾種經常使用模塊的使用方法

註釋：Excel 2003 即XLS文件有大小限制即65536行256列，因此不支持大文件，而Excel 2007以上即XLSX文件的限制則爲1048576行16384列python

下面則爲幾種模塊的使用：

1.xlwt 寫入xls文件內容

import xlwt
 
book = xlwt.Workbook() # 新建工做簿
table = book.add_sheet('Over',cell_overwrite_ok=True) # 若是對同一單元格重複操做會發生overwrite Exception，cell_overwrite_ok爲可覆蓋
sheet = book.add_sheet('Test') # 添加工做頁
sheet.write(1,1,'A') # 行，列，屬性值 (1,1)爲B2元素，從0開始計數
style = xlwt.XFStyle() # 新建樣式
font = xlwt.Font() #新建字體
font.name = 'Times New Roman'
font.bold = True
style.font = font # 將style的字體設置爲font
table.write(0,0,'Test',style)
book.save(filename_or_stream='excel_test.xls') # 必定要保存

2.xlrd讀取xls文件內容

import xlrd 
data = xlrd.open_workbook('excel_test.xls')
print(data.sheet_names()) # 輸出全部頁的名稱
table = data.sheets()[0] # 獲取第一頁
table = data.sheet_by_index(0) # 經過索引得到第一頁
table = data.sheet_by_name('Over') # 經過名稱來獲取指定頁
nrows = table.nrows # 爲行數，整形
ncolumns = table.ncols # 爲列數，整形
print(type(nrows))
print(table.row_values(0))# 輸出第一行值 爲一個列表
# 遍歷輸出全部行值
for row in range(nrows):
    print(table.row_values(row))
# 輸出某一個單元格值
print(table.cell(0,0).value)
print(table.row(0)[0].value)

3.綜合使用python-excel三大模塊完成Excel內容追加寫入

import xlwt,xlrd
from xlutils.copy import copy
data = xlrd.open_workbook('excel_test.xls',formatting_info=True)
excel = copy(wb=data) # 完成xlrd對象向xlwt對象轉換
excel_table = excel.get_sheet(0) # 得到要操做的頁
table = data.sheets()[0]
nrows = table.nrows # 得到行數
ncols = table.ncols # 得到列數
values = ["E","X","C","E","L"] # 須要寫入的值
for value in values:
    excel_table.write(nrows,1,value) # 由於單元格從0開始算，因此row不須要加一
    nrows = nrows+1
excel.save('excel_test.xls')

4.使用openpyxl寫xlsx文件

import openpyxl
data = openpyxl.Workbook() # 新建工做簿
data.create_sheet('Sheet1') # 添加頁
#table = data.get_sheet_by_name('Sheet1') # 得到指定名稱頁
table = data.active # 得到當前活躍的工做頁，默認爲第一個工做頁
table.cell(1,1,'Test') # 行，列，值 這裏是從1開始計數的
data.save('excel_test.xlsx') # 必定要保存

5.使用openpyxl讀取xlsx文件

import openpyxl
data = openpyxl.load_workbook('excel_test.xlsx') # 讀取xlsx文件
table = data.get_sheet_by_name('Sheet') # 得到指定名稱的頁
nrows = table.rows # 得到行數 類型爲迭代器
ncols = table.columns # 得到列數 類型爲迭代器
print(type(nrows))
for row in nrows:
    print(row) # 包含了頁名，cell，值
    line = [col.value for col in row] # 取值
    print(line)
# 讀取單元格
print(table.cell(1,1).value)

6.綜合使用openpyxl對Excel內容追加寫入

import openpyxl
data = openpyxl.load_workbook('excel_test.xlsx')
print(data.get_named_ranges()) # 輸出工做頁索引範圍
print(data.get_sheet_names()) # 輸出全部工做頁的名稱
# 取第一張表
sheetnames = data.get_sheet_names()
table = data.get_sheet_by_name(sheetnames[0])
table = data.active
print(table.title) # 輸出表名
nrows = table.max_row # 得到行數
ncolumns = table.max_column # 得到行數
values = ['E','X','C','E','L']
for value in values:
    table.cell(nrows+1,1).value = value
    nrows = nrows + 1
data.save('excel_test.xlsx')

7.XlsxWriter

import xlsxwriter
 
# 1. 建立一個Excel文件
workbook = xlsxwriter.Workbook('demo1.xlsx')
 
# 2. 建立一個工做表sheet對象
worksheet = workbook.add_worksheet()
 
# 3. 設定第一列（A）寬度爲20像素
worksheet.set_column('A:A',20)
 
# 4. 定義一個加粗的格式對象
bold = workbook.add_format({'bold':True})
 
# 5. 向單元格寫入數據
# 5.1 向A1單元格寫入'Hello'
worksheet.write('A1','Hello')
# 5.2 向A2單元格寫入'World'並使用bold加粗格式
worksheet.write('A2','World',bold)
# 5.3 向B2單元格寫入中文並使用加粗格式
worksheet.write('B2',u'中文字符',bold)
 
# 5.4 用行列表示法（行列索引都從0開始）向第2行、第0列（即A3單元格）和第3行、第0列（即A4單元格）寫入數字
worksheet.write(2,0,10)
worksheet.write(3,0,20)
 
# 5.5 求A三、A4單元格的和並寫入A5單元格，因而可知能夠直接使用公式
worksheet.write(4,0,'=SUM(A3:A4)')
 
# 5.6 在B5單元格插入圖片
worksheet.insert_image('B5','./demo.png')
 
# 5.7 關閉並保存文件
workbook.close()

pandas

數據寫入csv文件

import json
import requests
import pandas as pd
url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
data = {
    'cname': '',
    'pid': '',
    'keyword': '上海',# 查詢城市
    'pageIndex':'1',  # 顯示第幾頁的數據
    'pageSize': '100', # 一頁顯示多少數據
}
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
}
# 請求網址
response = requests.post(url=url,data=data,headers=headers)
# 反序列化
dic = json.loads(response.text)
for i in dic["Table1"]:
    storeName = i["storeName"]
    addressDetail = i["addressDetail"]
    pro= i["pro"]
    provinceName = i["provinceName"]
    cityName = i["cityName"] 
    # 構建數據結構
    data={
        'storeName':[storeName], 
        'addressDetail':[addressDetail],
        'pro':[pro],
        'provinceName':[provinceName],
        'cityName':[cityName],
    }
    # 實例化DataFrame對象
    df1 = pd.DataFrame(data=data)
    # 寫入本地 不要標題|不要索引|追加的方式寫入
    df1.to_csv('./lagou.csv',header=False,index=False,mode='a+',encoding='gbk')  
print("寫入成功")

View Code

讀取csv文件

import pandas as pd
df_example = pd.read_csv('./lagou.csv',encoding="gbk")
print(df_example)

寫入數據json

import json
import xlwt
import requests
url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
data = {
    'cname': '',
    'pid': '',
    'keyword': '上海',# 查詢城市
    'pageIndex':'1',  # 顯示第幾頁的數據
    'pageSize': '100', # 一頁顯示多少數據
}
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
}
# 請求網址
response = requests.post(url=url,data=data,headers=headers)
# 反序列化
dic = json.loads(response.text)
title = ["storeName","addressDetail","pro","provinceName","cityName"]
li = []
# 獲取數據
for i in dic["Table1"]:
    storeName = i["storeName"]
    addressDetail = i["addressDetail"]
    pro= i["pro"]
    provinceName = i["provinceName"]
    cityName = i["cityName"] 
    li.append([storeName,addressDetail,pro,provinceName,cityName])
#新建一個excel對象
wbk = xlwt.Workbook()
#添加一個名爲stu的sheet頁
sheet = wbk.add_sheet('stu')
# 寫入表頭
for i in range(len(title)):
    # 從0行i列寫入標題
    sheet.write(0,i,title[i])
# 寫入數據
for i in range(len(li)):
    # 若是不是表頭的話
    if i!=0:
        # 循環寫入數據
        for j in range(len(title)):
            sheet.write(i,j,li[i][j])
wbk.save('szz.xls')
print("下載成功")

爬蟲演示

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。