python 爬蟲

目前我們用python爬蟲主要有幾種網頁形式; 1.網站鏈接請求的靜態頁面;最簡單的 2.ajax請求的異步加載頁面; 3需要輸入信息查詢的以及需要人機多次互動獲取信息的。 第一種情況是最簡單的, 首先分析網站鏈接以及下鑽鏈接,跳轉鏈接規律後去遍歷獲取鏈接然後發請求 然後分析獲取的html文件標籤,找到你需要的數據標籤,進行數據提取。解析html文件 用etree或者beautifulsoup解析
相關文章
相關標籤/搜索