爬蟲學習日記（十二）解析PDF

時間 2019-12-05

標籤爬蟲學習日記十二解析 pdf 欄目網絡爬蟲简体版

原文原文鏈接

作爬蟲ICLD的migration的時候，發現ICLD的官網，顯示各類route信息是否是顯示在html上，而是一張PDF。
因此問題就轉變爲，解析PDF爲HTML再進行以往的分析操做。
首先經過繞過ssl認證去獲取網頁上的信息，轉成inputStream寫進臨時文件裏面。
在經過PDDocument來獲取裏面的PDF，用PDFTextStripper進行操做，獲取裏面的各類text。
而後人爲的加入一些HTML標籤，讓他跟以前爬回來的HTML字段沒有什麼區別，就能夠跟以前同樣進行操做了。html

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。