一種快捷的解析HTML方案

由於網絡太爛,我常常寫一些爬蟲程序解析一些視頻網站的整個專輯或漫畫網站的整卷漫畫的地址,然後用下載工具離線下載後再統一看。但是,從html源文件中解析出標題和鏈接來是一件比較麻煩的事情。由於各個網站沒有什麼共通的特徵,並且網站經常改版,導致解析算法基本上沒有複用性,必須對每個網站寫一個解析算法。 以前我一貫是通過正則表達式寫來直接解析文本,本身這種方式並沒有什麼問題,也非常方便。但是寫正則表達式還
相關文章
相關標籤/搜索