shell小技巧（三十五）模擬爬蟲獲取頁面中的文章連接

時間 2020-07-13

原文原文鏈接

以某博客https://blog.51cto.com/oldboy爲目標進行抓取html 爲了穩定數據源，先使用curl將抓取目標頁面存於本地curl curl -s https://blog.51cto.com/oldboy -o oldboy.htmlurl 代碼：htm 總結：blog 基本思路就是分析頁面內容的特徵。改頁面文章列表部份內容以下：字符串這裏只打算得到文章發佈時間、文章

>>阅读原文<<