爬取場庫網站遇到的問題

採用解析網頁源碼的方式 然後通過xpath表達式去匹配視頻的信息:標題、作者、圖片的url、視頻的url、評分、視頻簡介、點贊數、評論數、標籤、類型。 我在匹配這些信息時遇到兩大問題: 第一個問題:獲取到網頁源碼之後,根本找不到視頻的url,因爲視頻是通過js來播放的。   很巧的是我發現了播放視頻的關鍵代碼。結果是這樣的:      用了xpath表達式和正則表達式   第二個問題:每個頁面最多
相關文章
相關標籤/搜索