做者 | A字頭
來源 | 數據札記倌
有些朋友在工做中會有這樣的困惑:明明我從早忙到晚,爲何獲得的評價還不高?html
要知道,企業對一個員工的評價是出於「產出」而非「付出」。因此,若是把大量時間花在機械重複的工做上,不但工做效率不高,對我的發展來講也無甚幫助。python
而這些工做,若是對於會點編程的人來講,每每經過幾行代碼就能夠快速搞定了。web
因而,我去了解了一下身邊不一樣崗位(HR、產品、運營、市場、數據分析師等)天天須要面對的重複性勞動(確定會有不全,歡迎補充~),總結了一些在工做中很是常見的例子,而且將源碼整理好供參考。但願這些程序可讓你的工做更高效!(升職加薪了別忘了回來發紅包哦~)正則表達式
那麼如何將這些通通實現呢?sql
我將這些分爲如下幾類,你們能夠自行評估,各取所需:數據庫
因爲你常常須要不斷的將一些信息錄入系統,每一次錄入的過程當中你可能須要不斷的點擊一些按鈕,面對這種狀況,徹底能夠寫一個自動腳本,每次代替你來執行這些點擊的行爲。編程
這裏咱們須要用到splinter:小程序
pip install splinter
這裏寫了一個自動登陸郵箱的腳本,能夠實現文本輸入和網頁點擊:api
#coding=utf-8 import time from splinter import Browser def splinter(url): browser = Browser() #login 126 email websize browser.visit(url) #wait web element loading time.sleep(5) #fill in account and password browser.find_by_id('idInput').fill('xxxxxx') browser.find_by_id('pwdInput').fill('xxxxx') #click the button of login browser.find_by_id('loginBtn').click() time.sleep(8) #close the window of brower browser.quit() if __name__ == '__main__': websize = 'https://mail.163.com/' splinter(websize)
同理能夠寫一個簡單的遊戲掛機腳本,遊戲掛機腳本,無非就是自動移動鼠標,自動點擊,進行重複操做,因此,第一步就是如何控制鼠標。服務器
import win32api import time def move_click(x, y, t=0): # 移動鼠標並點擊左鍵 win32api.SetCursorPos((x, y)) # 設置鼠標位置(x, y) win32api.mouse_event(win32con.MOUSEEVENTF_LEFTDOWN | win32con.MOUSEEVENTF_LEFTUP, x, y, 0, 0) # 點擊鼠標左鍵 if t == 0: time.sleep(random.random()*2+1) # sleep一下 else: time.sleep(t) return 0 # 測試 move_click(30, 30) def resolution(): # 獲取屏幕分辨率 return win32api.GetSystemMetrics(0), win32api.GetSystemMetrics(1)
值得注意的是,必定要在管理員權限下的cmd中運行,不然點擊無效。
這個時候,你已經能夠寫個循環,不停地點擊屏幕上不一樣的幾個點,最基礎的掛機腳本就實現了。
Excel合併
在實際應用中可能會有不一樣月份的數據或者不一樣周的報告等等的Excel數據,都是單個獨立的文件,若是想要總體使用的話就須要合併一下,那麼如何利用python把指定目錄下的全部Excel數據合併成一個文件呢?
思路:利用python xlrd包讀取excle文件,而後將文件內容存入一個列表中,再利用xlsxwriter將內容寫入到一個新的excel文件中。
# -*- coding: utf-8 -*- #將多個Excel文件合併成一個 import xlrd import xlsxwriter #獲取excel中全部的sheet表 def getsheet(fh): return fh.sheets() #獲取sheet表的行數 def getnrows(fh,sheet): table=fh.sheets()[sheet] return table.nrows #讀取文件內容並返回行內容 def getFilect(file,shnum): fh=open_xls(file) table=fh.sheets()[shnum] num=table.nrows for row in range(num): rdata=table.row_values(row) datavalue.append(rdata) return datavalue
或者直接用concat+一個循環來實現:
for i in var_list: df_0 = data[['var_1','var_2','var_3','var_4',i]][data[i]=='信息'] df_0['month'] = date_replace(i) df_0 = df_0[['var_1','var_2','var_3','var_4','var_5']] li.append(df_0) writer = pd.ExcelWriter(r'C:\Users\mapping.xlsx') df = pd.concat(li) df.to_excel(writer,'Sheet1',index=False,header = None) df
Excel中添加數據圖表整理好excel文件後下一步須要作的是處理文件裏的數據,根據數據來生成一些本身須要的圖表:
import xlsxwriter #設置一個例子 data = [20, 45, 26, 18, 45] #建立表格 workbook = xlsxwriter.Workbook("temp.xlsx") worksheet = workbook.add_worksheet("data") #添加數據 worksheet.write_column('A1', data) #建立圖表 chart = workbook.add_chart({'type': 'line'}) #圖表添加數據 chart.add_series({ 'values': '=data!$A1:$A6', 'name': '圖表名稱', 'marker': { 'type': 'circle', 'size': 8, 'border': {'color': 'black'}, 'fill': {'color': 'red'} } , 'data_labels': {'values': True}, 'trendline': { 'type': 'polynomial', 'order': 2, 'name': '趨勢線', 'forward': 0.5, 'backward': 0.5, 'display_equation':True, 'line': {'color': 'red', 'width':1, 'dash_type': 'long_dash'} } }) worksheet.insert_chart('c1', chart) workbook.close()
實現效果:
假設你收到1萬份簡歷,你想先根據學校作一些篩選,這時候利用python將大量的簡歷進行信息彙總,只提取關鍵信息用excel查看起來更加方便。
docx文件本身自己是壓縮文件,打開壓縮包以後居然發現裏面有個專門存儲word裏面文本的文件。 那麼步驟就變得簡單了:1. 打開docx的壓縮包2. 獲取word裏面的正文信息3. 利用正則表達式匹配出咱們想要的信息4. 將信息存儲到txt中(txt能夠用excel打開)5. 批量調用上述過程,完成一萬份簡歷的提取工做利用正則匹配獲取關鍵信息:
import re def get_field_value(text): value_list = [] m = re.findall(r"姓 名(.*?)性 別", table) value_list.append(m) m = re.findall(r"性 別(.*?)學 歷", table) value_list.append(m) m = re.findall(r"民 族(.*?)健康情況", table) value_list.append(m) ''' 此處省略其餘字段匹配 ''' return value_list
在平時的工做中,必定會有對運營狀況的監控,假設你管理一家店鋪,那麼一些關鍵指標確定是你須要天天查看到的,好比店鋪訪問數,商品瀏覽數,下單數等等,這個時候不用天天重複地去統計這些數據,這須要寫一個自動化程序,天天將數據保存在固定的文件夾下就能夠實現報表的實時監控。
若是你的數據來源是線下文件:
from impala.dbapi import connect from impala.util import as_pandas import datetime conn = connect(host='host',port=21050,auth_mechanism='PLAIN',user='user',password='password') #host:數據庫域名 #user:數據庫用戶名 #password:數據庫密碼 df_data = pd.read_excel('temp.xlsx') rows =[] for index, row in df_data.iterrows(): rows.append('('+'"'+str(row['case_id']).replace('nan','null')+'"'+','+'"'+str(row['birth_date'])+'"'+')'+',') a= ''' INSERT into table (case_id, birth_date) values ''' for i in rows: a += i a = a[:-1] cursor1 = conn.cursor() cursor1.execute(a) cursor1.close() conn.close() print('成功導入數據至數據庫...') del a del rows
若是你的數據來源是線上文件(存在數據庫)
import sql #sql是封裝的sql文件 sql_end = sql.sql_end cursor1 = conn.cursor() for i in sql_end.split(';'): print(i) cursor1.execute(i) cursor1.close() conn.close() print('程序運行結束,請執行下一步。')
使用Python實現自動化郵件發送,可讓你擺脫繁瑣的重複性業務,節省很是多的時間。數據分析師常常會遇到一些取數需求,有些數據需求是天天都須要的,有些數據需求是每週一次的。對於這些週期性的數據需求,每次都重複性地手動導出這些數據,並回傳給需求方,是很繁瑣且浪費時間的。因此徹底能夠設置自動郵件來解決。"Talk is cheap, show you the code"常見的郵件確定有三部分:一、正文二、圖片三、附件OK導入咱們須要用到的包
from email.mime.text import MIMEText from email.mime.multipart import MIMEMultipart from email.mime.image import MIMEImage import smtplib msg = MIMEMultipart()
在郵件中插入正文:
##在郵件中插入文本信息 df_text='''<html> <body> <p> Hi all ,</p> <p> 這是一個測試郵件,詳情請參考附件 </p> <p> 狀況以下圖: </p> </body></html>''' msgtext = MIMEText(df_text, 'html', 'utf-8') msg.attach(msgtext)
若是你須要插入圖片,利用一樣的方法,在郵件中插入圖片:
##在郵件中插入圖片信息 image = open('temp.jpg','rb') msgimage = MIMEImage(image.read()) msg.attach(msgimage)
在郵件中插入附件:
##在郵件添加附件 msgfile = MIMEText(open('temp.xlsx', 'rb').read(), 'base64', 'utf-8') msgfile["Content-Disposition"] = 'attachment; filename="temp.xlsx"' msg.attach(msgfile)
剩下的就是設置一些郵件參數來發送郵件:
#設置郵件信息常量 email_host= '' # 服務器地址 sender = '' # 發件人 password ='' # 密碼,若是是受權碼就填受權碼 receiver = '' # 收件人
發送郵件:
try: smtp = smtplib.SMTP(host=email_host) smtp.connect(email_host) smtp.starttls() smtp.login(sender, password) smtp.sendmail(sender, receiver.split(',') , msg.as_string()) smtp.quit() print('發送成功') except Exception: print('發送失敗')
而後將你的任務設置定時執行就能夠輕鬆實現啦
實現效果:
平時的工做中,真的有太多能夠去自動化的任務,因爲經驗受限這裏不能一一舉例說明,只能儘可能分享一些我遇到過或者據說過的例子。但願你們都愈來愈高效,邊偷懶邊完成工做~
掃碼進入CDA官方小程序,解鎖更多新鮮資訊和優質內容,還有免費試聽課程,不要錯過喲!