使用Crawler對騰訊新聞進行數據爬取並保存入庫

時間 2019-12-05

標籤使用 crawler 騰訊進行數據保存入庫欄目騰訊简体版

原文原文鏈接

系統環境：Windows7java

任務要求：爬取URL + 爬取裏面的新聞內容 + 入庫數據庫

一、咱們首先要有一個URL列表,有了列表咱們才能深度去挖掘新聞的內容spa

使用cl 命令收集要爬取的內容:.net

C:\Users\ssHss\Desktop\Jar包\ImageTemp>java -jar Crawler1.0.3.jar -cl http://news.qq.com/ -cq "div[class=Q-tpWrap]"orm

-cl http://news.qq.com/ ci

-cq "div[class=Q-tpWrap]" 就是樣式代碼 <div class="Q-tpWrap" style:"xxsxxs:da;dadsad;sad;"><a href="x">x</a></div>get

提取規則 -cq 後面的參數input

唉呀媽呀,咱們爬取的裏面怎麼還有各類不同的代碼呢，ヾ(｡｀Д´｡). ok,咱們加format參數,哈哈，這樣寫代碼會比較安全一點。 -format 特徵it

經過爬取的咱們發現 news.qq.com/a/ 是新聞共有的一個URL特徵

咱們加特技 -fromat "news.qq.com/a/"

加File,咱們生成URL到本地路徑中 -input localpath 便可

第一步咱們完成了 URL的收集

二、深度爬取內容使用ci命令

加載本地URLlist文件,進行爬取

我看了下內容，我把neirong抽取寫錯了,改爲div[class=db]就行了。

三、導入數據庫

完成了

相關標籤/搜索