系統環境:Windows7java
任務要求:爬取URL + 爬取裏面的新聞內容 + 入庫數據庫
http://www.oschina.net/p/Crawler 項目軟件地址安全
一、咱們首先要有一個URL列表,有了列表咱們才能深度去挖掘新聞的內容spa
使用cl 命令收集要爬取的內容:.net
C:\Users\ssHss\Desktop\Jar包\ImageTemp>java -jar Crawler1.0.3.jar -cl http://news.qq.com/ -cq "div[class=Q-tpWrap]"orm
-cl http://news.qq.com/ ci
-cq "div[class=Q-tpWrap]" 就是樣式代碼 <div class="Q-tpWrap" style:"xxsxxs:da;dadsad;sad;"><a href="x">x</a></div>get
提取規則 -cq 後面的參數input
唉呀媽呀,咱們爬取的裏面怎麼還有各類不同的代碼呢,ヾ(。`Д´。). ok,咱們加format參數,哈哈,這樣寫代碼會比較安全一點。 -format 特徵it
經過爬取的咱們發現 news.qq.com/a/ 是新聞共有的一個URL特徵
咱們加特技 -fromat "news.qq.com/a/"
加File,咱們生成URL到本地路徑中 -input localpath 便可
第一步咱們完成了 URL的收集
二、深度爬取內容 使用ci命令
加載本地URLlist文件,進行爬取
我看了下內容,我把neirong抽取寫錯了,改爲div[class=db]就行了。
三、導入數據庫
完成了