Java--實現網絡爬蟲抓取RSS新聞（1）網絡爬蟲詳解

時間 2020-05-11

標籤 java 實現網絡爬蟲抓取 rss 詳解欄目 Java 简体版

原文原文鏈接

網絡爬蟲定義網絡爬蟲（又被稱爲網頁蜘蛛，網絡機器人，在FOAF社區中間，更常常的稱爲網頁追逐者），是一種按照必定的規則，自動的抓取萬維網信息的程序或者腳本。算法能夠更形象的理解：網絡至關於一個巨大的蜘蛛網，每一個蜘蛛絲的交叉點就是一個資源（URI），爬蟲這張巨大的網上爬取須要的資源後，經過必定的機制和容器進行存儲。網絡網絡爬蟲原理網絡爬蟲的基本原理能夠用一張經典的圖歸納：多線程下載器功能

>>阅读原文<<