作爬蟲ICLD的migration的時候,發現ICLD的官網,顯示各類route信息是否是顯示在html上,而是一張PDF。
因此問題就轉變爲,解析PDF爲HTML再進行以往的分析操做。
首先經過繞過ssl認證去獲取網頁上的信息,轉成inputStream寫進臨時文件裏面。
在經過PDDocument來獲取裏面的PDF,用PDFTextStripper進行操做,獲取裏面的各類text。
而後人爲的加入一些HTML標籤,讓他跟以前爬回來的HTML字段沒有什麼區別,就能夠跟以前同樣進行操做了。html