R語言網頁爬蟲

時間 2019-11-30

標籤語言網頁爬蟲欄目 HTML 简体版

原文原文鏈接

R 是統計計算和數據分析的利器。給定一個數據集，利用前幾章介紹到的 R 中靈活的
數據結構或高性能計算，咱們能夠很方便地進行數據轉換、建模和數值分析。
通常來講，商業數據庫會將數據以表格的形式很好地組織起來，便於使用。然而，情
況並不是老是如此合意，輸入數據集也並不是老是當即可得。有時，咱們須要本身收集數據。
對於不少研究領域而言，網頁內容是一個重要的數據源。爲了從互聯網上收集（抓取或收
取）數據，咱們須要適當的技術和工具。本章將會介紹網絡爬蟲的基本知識和工具，包括：html

查閱網頁內容數據庫

使用 CSS 選擇器從網頁中提取數據網絡

使用 XPath 選擇器數據結構

分析 HTML 代碼並提取數據工具