一看就明白的爬蟲入門講解:基礎理論篇

我們的目的是什麼 內容從何而來 瞭解網絡請求 一些常見的限制方式 嘗試解決問題的思路 效率問題的取捨 一、我們的目的是什麼 一般來講對我們而言,需要抓取的是某個網站或者某個應用的內容,提取有用的價值,內容一般分爲兩部分,非結構化的文本,或結構化的文本。 1. 關於非結構化的數據 1.1 HTML文本(包含JavaScript代碼) HTML文本基本上是傳統爬蟲過程中最常見的,也就是大多數時候會遇到
相關文章
相關標籤/搜索