使用Crawler對騰訊新聞進行數據爬取並保存入庫

系統環境:Windows7java

任務要求:爬取URL + 爬取裏面的新聞內容 + 入庫數據庫

http://www.oschina.net/p/Crawler 項目軟件地址安全


一、咱們首先要有一個URL列表,有了列表咱們才能深度去挖掘新聞的內容spa

使用cl 命令收集要爬取的內容:.net

C:\Users\ssHss\Desktop\Jar包\ImageTemp>java -jar Crawler1.0.3.jar -cl http://news.qq.com/ -cq "div[class=Q-tpWrap]"orm

-cl http://news.qq.com/ ci

-cq "div[class=Q-tpWrap]"  就是樣式代碼 <div class="Q-tpWrap" style:"xxsxxs:da;dadsad;sad;"><a href="x">x</a></div>get

提取規則 -cq 後面的參數input

唉呀媽呀,咱們爬取的裏面怎麼還有各類不同的代碼呢,ヾ(。`Д´。). ok,咱們加format參數,哈哈,這樣寫代碼會比較安全一點。 -format 特徵it

經過爬取的咱們發現 news.qq.com/a/ 是新聞共有的一個URL特徵

咱們加特技 -fromat "news.qq.com/a/" 

加File,咱們生成URL到本地路徑中 -input localpath 便可

第一步咱們完成了 URL的收集


二、深度爬取內容 使用ci命令

加載本地URLlist文件,進行爬取

我看了下內容,我把neirong抽取寫錯了,改爲div[class=db]就行了。


三、導入數據庫

完成了

相關文章
相關標籤/搜索