另類爬蟲：從PDF文件中爬取表格數據

時間 2021-01-02

原文原文鏈接

簡介本文將展示一個稍微不一樣點的爬蟲。以往我們的爬蟲都是從網絡上爬取數據，因爲網頁一般用HTML,CSS,JavaScript代碼寫成，因此，有大量成熟的技術來爬取網頁中的各種數據。這次，我們需要爬取的文檔爲PDF文件。本文將展示如何利用Python的camelot模塊從PDF文件中爬取表格數據。在我們的日常生活和工作中，PDF文件無疑是最常用的文件格式之一，小到教材、課件，大到

>>阅读原文<<