爬蟲存儲器

 

爬蟲數據存儲

 

一、 HTML正文抽取

 

1.一、存儲爲json

  首先使用Requests訪問http://seputu.com/,獲取HTML文檔內容,並打印內容,代碼以下json

 

 

 

 

 

 

 

 

 

1.二、爬蟲異常發送郵件

開啓網易郵件的第三方設置服務器

獲取郵箱受權碼ide

 


構造MIMEText對象時須要3個參數:郵件正文,MIME的subtype,傳入'plain'表示純文本,最終的MIME就是'text/plain',設置編碼格式,utf-8編碼保證多語言兼容性。
接着設置郵件的發件人、收件人和郵件主題等消息,並經過STMP發送出去。代碼以下

 

#構造MIMEText對象時須要3個參數:郵件正文,MIME的subtype,傳入'plain'表示純文本,最終的MIME就是'text/plain',設置編碼格式,utf-8編碼保證多語言兼容性。
#接着設置郵件的發件人、收件人和郵件主題等消息,並經過STMP發送出去。代碼以下
from email.header import Header
from email.mime.text import MIMEText
from email.utils import parseaddr,formataddr
import smtplib

def _format_adrr(s):
    print(s)
    name,addr=parseaddr(s)
    print(name,addr)
    return formataddr((Header(name,'utf-8').encode(),addr))

from_addr='15200723046@163.com' #發件人地址
password='951127chenyang'      #郵箱受權碼
to_addr='794418323@qq.com'
smtp_server='smtp.163.com'  #163網易郵箱服務器的地址
#設置郵件信息
msg=MIMEText('Python爬蟲運行異常,異常信息爲遇到HTTP 403','plain','utf-8') #發送的文本
msg['From']=_format_adrr('一號爬蟲<%s>'%from_addr)    #爬蟲名
msg['To']=_format_adrr('管理員<%s>'%to_addr)
msg['Subject']=Header('一號爬蟲運行狀態','utf-8').encode()
# 發送郵件
server=smtplib.SMTP(smtp_server,25)    #使用的郵件服務器地址和端口
server.login(from_addr,password)    #發件人的郵件和密碼
server.sendmail(from_addr,[to_addr],msg.as_string())    #發送郵件
server.quit()     #關閉鏈接端口
發送郵件代碼
相關文章
相關標籤/搜索