我是如何將博客轉成PDF的

時間 2019-12-05

標籤如何博客轉成 pdf 简体版

原文原文鏈接

前言

只有光頭才能變強html

以前有讀者問過我：「3y你的博客有沒有電子版的呀？我想要份電子版的」。我說：「沒有啊，我沒有弄過電子版的，我這邊有個文章導航頁面，你能夠去文章導航去找來看呀」..而後就沒有而後了。python

最近也有個讀者提過這個問題，而後這兩天也沒什麼事作，因此打算折騰折騰，看看怎麼把博客轉成PDF。git

1、準備工做

要將博客轉成PDF，我首先想到的是能不能將markdown文件轉成PDF(由於平時我就是用markdown來寫博客的)。github

想了一下，原生markdown顯示的話，代碼是沒有高亮的，格式也不會太好看。
因此就放棄了這個想法。

因而就去想一下，可不能夠將HTML轉成PDF呢。就去GitHub搜了有沒有相關的輪子，也搜到了一些關於Python的爬蟲啥的，感受仍是蠻複雜的。web

後來，終於搜到了個不錯的：markdown

https://github.com/petterobam/my-html2file

介紹：收集一系列html轉文檔的開源插件，作成html頁面轉文件的微服務集成Web應用，目前包含 html轉PDF、html轉圖片、html轉markdown等等。機器學習

功能：微服務

網頁轉PDF（參用wkhtml2pdf插件）
網頁轉圖片（參用wkhtml2pdf插件）
網頁轉Markdown（參用jHTML2Md）
網頁轉WORD（參用Apache POI）

這裏我主要用到的網頁轉PDF這麼一個功能，對應的插件是wkhtml2pdf。post

1.1踩坑

發現了一個不錯的輪子了，感受可行，因而就去下載來跑一下看看怎麼樣。啓動的時候倒沒有出錯，但在調接口的時候，總是拋出異常。學習

因而就開始查一下路徑，url有沒有問題啦，查來查去發現都沒問題啊。

後來才發現個人wkhtml2pdf.exe文件打不開，說我缺乏幾個dll文件。因而，我首先想到的是去wkhtml2pdf官網看看有沒有相關的問題，想從新下載一個，但官網都進不去...(不是牆的問題)

https://wkhtmltopdf.org/
(ps：一個週末過去了，發現又能打開了。)

好吧，因而就去找‘dll文件缺失怎麼辦’。後面發現，安裝一下Visual C++ Redistributable for Visual Studio 2015就行了(沒有網上說得那麼複雜)

https://www.microsoft.com/zh-cn/download/confirmation.aspx?id=48145

完了以後，發現能夠將一個HTML轉成PDF了，效果還不錯：

有目錄
可複製粘貼
可跳轉到連接
清晰度好評

缺點：

頁面加載速度慢的HTML，圖片還沒加載出來就已經生成PDF了
- 因此我選用了博客園(速度快)
在PDF的末尾有好幾頁不相關的(評論，廣告啥的)

原本想着能不能只截取HTML博文的部分啊(評論，廣告和其餘不相關的不截取)。因而就去搜了一下，感受是挺麻煩的，本身作了幾回試驗都沒弄出來，最後放棄了。

後來又想了一下，我不是有一個沒有廣告的博客平臺嗎，恰好能夠拿來用了。可是，我本身寫完的markdown是沒有所有保存在硬盤上的，後來發現簡書能夠下載已發佈文章的全部markdown。

下載下來的文章，我想所有導入到以前那個無廣告的博客平臺上。但發現導出來的markdown沒有高亮語法..

// 沒有語法高亮咋看啊，因此到這裏我就放棄了，將就用一下博客園生成的PDF吧

1.2爬蟲學習

上面GitHub提供的接口是一個URL生成一個PDF文件，我是不可能一個一個將連接和標題放上去生成的(由於博客園上發的也將近200篇了)。

而我是一點也不會爬蟲的，因而也去搜了一下Java的爬蟲輪子，發現一個很出名(WebMagic)

https://github.com/code4craft/webmagic

因而就跟着文檔學習，也遇到了坑...文檔給出的版本是0.7.3，我使用的JDK版本是8，用它的例子跑的時候拋出了SSLException異常(然而網上的0.6.x版本是沒有問題的)

折騰完折騰去，也找到了0.7.3版本在JDK8上如何解決SSLException異常的辦法了：

http://www.cnblogs.com/vcmq/p/9484418.html

修改HttpClientDownloader和HttpClientGenerator這兩個類的部分代碼就行了。

可是，我仍是死活寫不出能用的代碼出來(真的菜!)..後來去問了一下同事(公衆號：Rude3Knife)咋搞，他用Python幾分鐘就寫好了。

def get_blog_yuan(blog_name, header):
    for i in range(1, 6):
        url = 'https://www.cnblogs.com/' + blog_name + '/default.html?page=' + str(i)
        r = requests.get(url, headers=header, timeout=6)
        selector = etree.HTML(r.text)
        names = selector.xpath("//*[@class='postTitle']/a/text()")
        links = selector.xpath("//*[@class='postTitle']/a/@href")
        for num in range(len(names)):
            print(names[num], links[num])
        time.sleep(5)

我也不糾結了..直接用他爬下來的數據吧(:

WebMagic中文文檔：