做者:黃偉
來源:傑哥的IT之旅(ID:Jake_Internet)
轉載請聯繫受權(WeChat ID:Hc220066)html
1、相關知識點講解
一、須要使用的相關庫app
1import numpy as np 2import pandas as pd 3import os
二、os.walk(pwd)
圖片
舉例以下
① 先來看看"G:\a"文件夾下有哪些東西。ide
② 代碼操做以下:3d
1pwd = "G:\\a" 2print(os.walk(pwd)) 3for i in os.walk(pwd): 4 print(i) 5for path,dirs,files in os.walk(pwd): 6 print(files)
③ 結果以下:excel
1<generator object walk at 0x0000029BB5AEAB88> 2('G:\\a', [], ['aa.txt', 'bb.xlsx', 'cc.txt', 'dd.docx']) 3['aa.txt', 'bb.xlsx', 'cc.txt', 'dd.docx']
三、os.path.join(path1,path2…)
做用:將多個路徑組合後返回code
舉例以下htm
1path1 = 'G:\\a' 2path2 = 'aa.txt' 3print(os.path.join(path1,path2))
結果以下:對象
1G:\a\aa.txt
四、案例解析blog
舉例以下:索引
1pwd = "G:\\a" 2file_path_list = [] 3for path,dirs,files in os.walk(pwd): 4 for file in files: 5 file_path_list.append(os.path.join(pwd,file)) 6print(file_path_list)
結果以下:
1['G:\\a\\aa.txt','G:\\a\\bb.xlsx','G:\\a\\cc.txt','G:\\a\\dd.docx']
五、怎麼在一個列表中存放多個DataFrame數據。
1# 先使用以下代碼建立兩個DataFrame數據源。 2import numpy as np 3xx = np.arange(15).reshape(5,3) 4yy = np.arange(1,16).reshape(5,3) 5xx = pd.DataFrame(xx,columns=["語文","數學","外語"]) 6yy = pd.DataFrame(yy,columns=["語文","數學","外語"]) 7print(xx) 8print(yy)
結果以下:
怎麼講上述兩個DataFrame拼接在一塊兒?
1concat_list = [] 2concat_list.append(xx) 3concat_list.append(yy) 4# pd.concat(list)中【默認axis=0】默認的是數據的縱向合併。 5# pd.concat(list)括號中傳入的是一個DataFrame列表。 6# ignore_list=True表示忽略原有索引,從新生成一組新的索引。 7z = pd.concat(concat_list,ignore_list=True) 8print(z) 9 10# 或者直接能夠寫成z = pd.concat([xx,yy],ignore_list=True)
結果以下:
2、多工做簿合併(一)
一、將多個Excel合併到一個Excel中(每一個Excel中只有一個sheet表)
操做以下:
1import pandas as pd 2import os 3pwd = "G:\\b" 4df_list = [] 5for path,dirs,files in os.walk(pwd): 6 for file in files: 7 file_path = os.path.join(path,file) 8 df = pd.read_excel(file_path) 9 df_list.append(df) 10result = pd.concat(df_list) 11print(result) 12result.to_excel('G:\\b\\result.xlsx',index=False)
結果以下:
3、多工做簿合併(二)
一、相關知識點講解
xlsxwrite的用法
11)建立一個"工做簿",此時裏面會默認生成一個名叫"Sheet1"的Sheet表。 2import xlsxwriter 3# 這一步至關於建立了一個新的"工做簿"; 4# "demo.xlsx"文件不存在,表示新建"工做簿"; 5# "demo.xlsx"文件存在,表示新建"工做簿"覆蓋原有的"工做簿"; 6workbook = xlsxwriter.Workbook("demo.xlsx") 7# close是將"工做簿"保存關閉,這一步必須有。不然建立的文件沒法顯示出來。 8workbook.close() 92)建立一個"工做簿"並添加一個"工做表",工做表命名爲"2018年銷量"。 10import xlsxwriter 11workbook = xlsxwriter.Workbook("cc.xlsx") 12worksheet = workbook.add_worksheet("2018年銷售量") 13workbook.close()
結果以下:
13)給"2018年銷售量"工做表建立一個表頭,向其中插入一條數據。 2import xlsxwriter 3# 建立一個名爲【demo.xlsx】工做簿; 4workbook = xlsxwriter.Workbook("demo.xlsx") 5# 建立一個名爲【2018年銷售量】工做表; 6worksheet = workbook.add_worksheet("2018年銷售量") 7# 使用write_row方法,爲【2018年銷售量】工做表,添加一個表頭; 8headings = ['產品','銷量',"單價"] 9worksheet.write_row('A1',headings) 10# 使用write方法,在【2018年銷售量】工做表中插入一條數據; 11# write語法格式:worksheet.write(行,列,數據) 12data = ["蘋果",500,8.9] 13for i in range(len(headings)): 14 worksheet.write(1,i,data[i]) 15workbook.close()
結果以下:
其餘用法能夠參考:http://www.javashuo.com/article/p-vvnoajwi-bs.html
xlrd的用法
11)打開某一個存在的excel文件,返回給咱們"xlrd.book.Book"工做簿對象; 2# 這裏所說的"打開"並非實際意義上的打開,只是將該表加載到內存中打開。 3# 咱們並看不到"打開的這個效果" 4# 以打開上述建立的"test.xlsx"文件爲例; 5import xlrd 6file = r"G:\Jupyter\test.xlsx" 7xlrd.open_workbook(file) 8# 結果以下: 9<xlrd.book.Book at 0x29bb8e4eda0> 10 112)sheet_names():獲取全部的sheet表表名,假若有多個sheet表,返回一個列表; 12import xlrd 13file = r"G:\Jupyter\test.xlsx" 14fh = xlrd.open_workbook(file) 15fh.sheet_names() 16# 結果以下: 17['2018年銷售量', '2019年銷售量'] 18 193)sheets()方法:返回的是sheet表的對象列表。 20# 返回sheet表的對象列表 21fh.sheets() 22# 結果以下: 23[<xlrd.sheet.Sheet at 0x29bb8f07a90>, <xlrd.sheet.Sheet at 0x29bb8ef1390>] 24 25# 能夠利用索引,獲取每個sheet表的對象 26fh.sheets()[0] 27結果是:<xlrd.sheet.Sheet at 0x29bb8f07a90> 28fh.sheets()[1] 29結果是:<xlrd.sheet.Sheet at 0x29bb8ef1390> 30 314)返回每個sheet表的行數(nrows) 和 列數(ncols); 32# 咱們能夠利用上述建立的sheet表對象,對每個sheet表進行操做; 33fh.sheets()[0].nrows # 結果是:4 34fh.sheets()[0].ncols # 結果是:3 35 365)row_values(行數):獲取每個sheet表中每一行的數據; 37sheet1 = fh.sheets()[0] 38for row in range(fh.sheets()[0].nrows): 39 value = sheet1.row_values(row) 40 print(value)
結果以下:
16)col_values(列數):獲取每個sheet表中每一列的數據; 2sheet1 = fh.sheets()[0] 3for col in range(fh.sheets()[0].ncols): 4 value = sheet1.col_values(col) 5 print(value)
結果以下:
二、將多個Excel合併到一個Excel中(每一個Excel中不僅一個sheet表)
1import xlrd 2import xlsxwriter 3import os 4 5# 打開一個Excel文件,建立一個工做簿對象 6def open_xlsx(file): 7 fh=xlrd.open_workbook(file) 8 return fh 9 10# 獲取sheet表的個數 11def get_sheet_num(fh): 12 x = len(fh.sheets()) 13 return x 14 15# 讀取文件內容並返回行內容 16def get_file_content(file,shnum): 17 fh=open_xlsx(file) 18 table=fh.sheets()[shnum] 19 num=table.nrows 20 for row in range(num): 21 rdata=table.row_values(row) 22 datavalue.append(rdata) 23 return datavalue 24 25def get_allxls(pwd): 26 allxls = [] 27 for path,dirs,files in os.walk(pwd): 28 for file in files: 29 allxls.append(os.path.join(path,file)) 30 return allxls 31 32# 存儲全部讀取的結果 33datavalue = [] 34pwd = "G:\\d" 35for fl in get_allxls(pwd): 36 fh = open_xlsx(fl) 37 x = get_sheet_num(fh) 38 for shnum in range(x): 39 print("正在讀取文件:"+str(fl)+"的第"+str(shnum)+"個sheet表的內容...") 40 rvalue = get_file_content(fl,shnum) 41 42# 定義最終合併後生成的新文件 43endfile = "G:\\d\\concat.xlsx" 44wb1=xlsxwriter.Workbook(endfile) 45# 建立一個sheet工做對象 46ws=wb1.add_worksheet() 47for a in range(len(rvalue)): 48 for b in range(len(rvalue[a])): 49 c=rvalue[a][b] 50 ws.write(a,b,c) 51wb1.close() 52print("文件合併完成")
【將上述代碼封裝後以下】
1import xlrd 2import xlsxwriter 3import os 4 5class Xlrd(): 6 def __init__(self,pwd): 7 self.datavalue = [] 8 self.pwd = pwd 9 10 # 打開一個Excel文件,建立一個工做簿對象; 11 def open_xlsx(self,fl): 12 fh=xlrd.open_workbook(fl) 13 return fh 14 15 # 獲取sheet表的個數; 16 def get_sheet_num(self,fh): 17 x = len(fh.sheets()) 18 return x 19 20 # 讀取不一樣工做簿中每個sheet中的內容,並返回每行內容組成的列表; 21 def get_file_content(self,file,shnum): 22 fh = self.open_xlsx(file) 23 table=fh.sheets()[shnum] 24 num=table.nrows 25 for row in range(num): 26 rdata=table.row_values(row) 27 # 由於每個sheet表都有一個表頭; 28 # 這裏的判斷語句,把這個表頭去除掉; 29 # 而後在最後寫入數據的,添加上一個表頭,便可; 30 if rdata == ['姓名','性別','年齡','家庭住址']: 31 pass 32 else: 33 self.datavalue.append(rdata) 34 return self.datavalue 35 36 # 獲取xlsx文件的全路徑; 37 def get_allxls(self): 38 allxls = [] 39 for path,dirs,files in os.walk(self.pwd): 40 for file in files: 41 allxls.append(os.path.join(path,file)) 42 return allxls 43 44 # 返回不一樣工做簿中,全部的sheet表的內容列表; 45 def return_rvalue(self): 46 for fl in self.get_allxls(): 47 fh = self.open_xlsx(fl) 48 x = self.get_sheet_num(fh) 49 for shnum in range(x): 50 print("正在讀取文件:"+str(fl)+"的第"+str(shnum)+"個sheet表的內容...") 51 rvalue = self.get_file_content(fl,shnum) 52 return rvalue 53 54class Xlsxwriter(): 55 def __init__(self,endfile,rvalue): 56 self.endfile = endfile 57 self.rvalue = rvalue 58 59 def save_data(self): 60 wb1 = xlsxwriter.Workbook(endfile) 61 # 建立一個sheet工做對象; 62 ws = wb1.add_worksheet("一年級(7)班") 63 # 給文件添加表頭; 64 ws = wb1.add_worksheet("2018年銷售量") 65 headings = ['姓名','性別','年齡','家庭住址'] 66 for a in range(len(self.rvalue)): 67 for b in range(len(self.rvalue[a])): 68 c = self.rvalue[a][b] 69 # 由於給文件添加了表頭,所以,數據從下一行開始寫入; 70 ws.write(a+1,b,c) 71 wb1.close() 72 print("文件合併完成") 73 74pwd = "G:\\d" 75xl = Xlrd(pwd) 76rvalue = xl.return_rvalue() 77endfile = "G:\\d\\concat.xlsx" 78write = Xlsxwriter(endfile,rvalue) 79write.save_data();
結果以下:
4、一個工做簿多sheet表合併。
一、將一個Excel表中的多個sheet表合併,並保存到同一個excel。
1import xlrd 2import pandas as pd 3from pandas import DataFrame 4from openpyxl import load_workbook 5 6excel_name = r"D:\pp.xlsx" 7wb = xlrd.open_workbook(excel_name) 8sheets = wb.sheet_names() 9 10alldata = DataFrame() 11for i in range(len(sheets)): 12 df = pd.read_excel(excel_name, sheet_name=i, index=False, encoding='utf8') 13 alldata = alldata.append(df) 14 15writer = pd.ExcelWriter(r"C:\Users\Administrator\Desktop\score.xlsx",engine='openpyxl') 16book = load_workbook(writer.path) 17writer.book = book 18# 必需要有上面這兩行,假如沒有這兩行,則會刪去其他的sheet表,只保留最終合併的sheet表 19 20alldata.to_excel(excel_writer=writer,sheet_name="ALLDATA") 21writer.save() 22writer.close()
結果以下:
5、一表拆分(按照表中某一列進行拆分)
一、將一個Excel表,按某一列拆分紅多張表。
1import pandas as pd 2import xlsxwriter 3data=pd.read_excel(r"C:\Users\Administrator\Desktop\chaifen.xlsx",encoding='gbk') 4 5area_list=list(set(data['店鋪'])) 6 7writer=pd.ExcelWriter(r"C:\Users\Administrator\Desktop\拆好的表1.xlsx",engine='xlsxwriter') 8data.to_excel(writer,sheet_name="總表",index=False) 9 10for j in area_list: 11 df=data[data['店鋪']==j] 12 df.to_excel(writer,sheet_name=j,index=False) 13 14writer.save() #必定要加上這句代碼,「拆好的表」纔會顯示出來
結果以下: