另類爬蟲:從PDF文件中爬取表格數據

簡介   本文將展示一個稍微不一樣點的爬蟲。   以往我們的爬蟲都是從網絡上爬取數據,因爲網頁一般用HTML,CSS,JavaScript代碼寫成,因此,有大量成熟的技術來爬取網頁中的各種數據。這次,我們需要爬取的文檔爲PDF文件。本文將展示如何利用Python的camelot模塊從PDF文件中爬取表格數據。   在我們的日常生活和工作中,PDF文件無疑是最常用的文件格式之一,小到教材、課件,大到
相關文章
相關標籤/搜索