PDF文件如何轉成markdown格式

百度上根據pdf轉makrdown爲關鍵字進行搜索,結果大多數是反過來的轉換,即markdown文本轉PDF格式。html

可是PDF轉markdown的解決方案不多。git

正好我工做上有這個需求,因此本身實現了一個解決方案。github

下圖是一個用PDF XChange Editor打開的PDF文件,我想將其內容經過markdown格式導出。markdown

(1) 首先將該PDF導出成word格式,後綴.docx網絡

(2) 使用typora得到該word文檔的markdown源代碼:工具

此時任務只完成了一半,由於typora這個工具轉換成的markdown格式,若是原始的word文檔裏包含圖片,這些圖片以本地圖片的形式存在於markdown裏,那我若是直接將包含了這些本地圖片的標籤的markdown發佈到簡書,CSDN,開源中國,騰訊雲,阿里雲這些支持markdown的社區時,這些本地圖片將沒法顯示。網站

所以咱們必須找到一個高效的方法,將word裏包含的本地圖片先上傳到網絡上,再用生成的包含了圖片網絡url的markdown標籤替換本地圖片標籤。 (3) 把word文件的後綴從.docx改爲.zip, 解壓後,在文件夾word的子文件夾media裏能找到全部的本地文件。阿里雲

把這些本地文件所有上傳到網站,生成下面這些url:url

我寫了一個工具,能夠把僅包含了本地圖片標籤的markdown源代碼和包含了上述在線圖片url標籤的源代碼作一個合併,後並後,本地圖片標籤會被在線圖片標籤取代:3d

這個工具能夠從我github上得到: https://github.com/i042416/KnowlegeRepository/blob/master/practice/255_markdown_tool.html

下圖就是個人原始PDF轉換成markdown格式後發佈在某社區上的效果,和原始PDF外觀徹底一致:

要獲取更多Jerry的原創文章,請關注公衆號"汪子熙":

相關文章
相關標籤/搜索