用Python將HTML轉爲PDF。

時間 2020-12-27

標籤 html 數據庫微信 app ide 學習 url spa orm htm 欄目 Python 简体版

原文原文鏈接

上期提到了如何獲取公衆號文章信息，這回就說下怎麼將網頁轉爲PDF，方便日常學習。html

而後擴散一下以前一個比賽的結果(華章計算機抖音大賽)。數據庫

順便談談本身對從此送書的一個想法。微信

另外以前的送書活動，有中獎的讀者沒有聯繫我，因此這回一併送出。app

明天還會送兩本書，你們也能夠關注一下。ide

/ 01 / HTML轉PDF學習

主要用到的庫有pdfkit及wkhtmltopdf。url

安裝我就不說了，網上也是一堆教程，經過下面的代碼也能略知一二。spa

須要注意的點就是，把網頁轉PDF的時候，須要將網頁的圖片下載下來，保存在本地。orm

而後生成網頁時調用本地的圖片，這樣就不會出如今PDF中圖片缺失的狀況。htm

本次沒有去設置詳細的PDF參數，因此生成的PDF排版並非很友好，不過仍是能湊合看的。

具體轉換代碼以下。

import pandas as pd
import requests
import pdfkit
import os
import re

# 讀取數據並清洗
df = pd.read_csv('article.csv', header=None, names=['title', 'digest', 'article_url', 'date'], encoding='gbk')
df['date'] = pd.to_datetime(df.date.values, unit='s', utc=True).tz_convert('Asia/Shanghai')
df_date = df['date'].astype(str).str.split(' ', expand=True)
df['day'] = df_date[0]
# 獲取目錄的絕對路徑
fileDir = os.path.abspath(os.path.dirname('F:\\article_pdf'))

headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 MicroMessenger/6.5.2.501 NetType/WIFI WindowsWechat QBCore/3.43.901.400 QQBrowser/9.0.2524.400",
}

proxies = {
    "https": None,
    "http": None,
}

# 設置轉PDF參數
options = {
        "page-size": "Letter",
        "encoding": "UTF-8",
        "custom-header": [
            ("Accept-Encoding", "gzip")
        ]
    }

# 調用wkhtmltopdf
# confg = pdfkit.configuration(wkhtmltopdf=r"C:\Users\Administrator\wkhtmltox-0.12.5-1.mxe-cross-win64\wkhtmltox\bin\wkhtmltopdf.exe")

for title, url, date in zip(df['title'], df['article_url'], df['day']):
    print(title, url, date)
    # 替換特殊符號
    title = re.sub('[\/:：*?"<>|]', '', title)
    title = title.replace('\\', '_')
    # html文件名
    html_name = '{}/{}.html'.format('F:\\article_pdf', date + '_' + title)
    res = requests.get(url, headers=headers, proxies=proxies, timeout=3)
    html = res.text
    # 用?來控制正則貪婪和非貪婪匹配;(.*?) 小括號來控制是否包含匹配的關鍵字
    pattern = re.compile(r'data-src=\"http.*?\"')
    result = pattern.findall(html)
    picCnt = 0
    for i in result:
        picCnt = picCnt + 1
        url = re.findall(r'\"(.*?)\"', i)[0]
        # 圖片名
        picture_name = '{}/{}.png'.format('F:\\article_pdf', str(picCnt))
        # 調用本地圖片
        html = html.replace(url, picture_name)
        # 獲取圖片內容
        r = requests.get(url)
        with open(picture_name, "wb+") as f:
            f.write(r.content)
        # 保存html文件
        html = html.replace('data-src', 'src')
        fd = open(html_name, 'w', encoding="utf-8")
        fd.write(html)
        fd.close()

    pdf_name = '{}/{}.pdf'.format('F:\\article_pdf', date + '_' + title)
    try:
        # html轉pdf
        pdfkit.from_file(html_name, pdf_name, options=options)
    except:
        pass