R 是統計計算和數據分析的利器。給定一個數據集,利用前幾章介紹到的 R 中靈活的
數據結構或高性能計算,咱們能夠很方便地進行數據轉換、建模和數值分析。
通常來講,商業數據庫會將數據以表格的形式很好地組織起來,便於使用。然而,情
況並不是老是如此合意,輸入數據集也並不是老是當即可得。有時,咱們須要本身收集數據。
對於不少研究領域而言,網頁內容是一個重要的數據源。爲了從互聯網上收集(抓取或收
取)數據,咱們須要適當的技術和工具。本章將會介紹網絡爬蟲的基本知識和工具,包括:html
查閱網頁內容數據庫
使用 XPath 選擇器數據結構