爬取場庫網站遇到的問題

時間 2021-01-20

原文原文鏈接

採用解析網頁源碼的方式然後通過xpath表達式去匹配視頻的信息：標題、作者、圖片的url、視頻的url、評分、視頻簡介、點贊數、評論數、標籤、類型。我在匹配這些信息時遇到兩大問題：第一個問題：獲取到網頁源碼之後，根本找不到視頻的url，因爲視頻是通過js來播放的。很巧的是我發現了播放視頻的關鍵代碼。結果是這樣的：用了xpath表達式和正則表達式第二個問題：每個頁面最多