shell小技巧(三十五)模擬爬蟲獲取頁面中的文章連接

以某博客https://blog.51cto.com/oldboy爲目標進行抓取html 爲了穩定數據源,先使用curl將抓取目標頁面存於本地curl curl -s https://blog.51cto.com/oldboy  -o oldboy.htmlurl 代碼:htm   總結:blog 基本思路就是分析頁面內容的特徵。改頁面文章列表部份內容以下:字符串 這裏只打算得到文章發佈時間、文章
相關文章
相關標籤/搜索