R語言網頁爬蟲

R 是統計計算和數據分析的利器。給定一個數據集,利用前幾章介紹到的 R 中靈活的
數據結構或高性能計算,咱們能夠很方便地進行數據轉換、建模和數值分析。
通常來講,商業數據庫會將數據以表格的形式很好地組織起來,便於使用。然而,情
況並不是老是如此合意,輸入數據集也並不是老是當即可得。有時,咱們須要本身收集數據。
對於不少研究領域而言,網頁內容是一個重要的數據源。爲了從互聯網上收集(抓取或收
取)數據,咱們須要適當的技術和工具。本章將會介紹網絡爬蟲的基本知識和工具,包括:html

查閱網頁內容數據庫

使用 CSS 選擇器從網頁中提取數據網絡

使用 XPath 選擇器數據結構

分析 HTML 代碼並提取數據工具

相關文章
相關標籤/搜索