今天學了下java的爬蟲,首先要下載jsoup的包,而後導入,導入過程:首先右擊工程:Build Path ->configure Build Path,再點擊Add External JARS,進行導包。java
學習參考文檔:https://jsoup.org/node
可是有一點小問題:就是利用java爬蟲爬去了知乎的問題,可是卻只爬到了前三條,大致思路應該仍是正確的。不知怎麼解決,若是各位大佬有思路,望指教:學習
import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class worm0{ public static void main(String[] args) throws IOException { Document document=Jsoup.connect("https://www.zhihu.com/").get(); Elements main=document.select(".ContentLayout-mainColumn"); Elements url=main.select("h2[class=ContentItem-title]").select("a"); System.out.println("url"+url); for(Element question:url){ //輸出href後的值,即主頁上每一個關注問題的連接 String URL=question.attr("abs:href"); //下載問題連接指向的頁面 Document document2=Jsoup.connect(URL).get(); //問題 Elements title=document2.select(".QuestionHeader-title"); //問題描述 Elements detail=document2.select("span[class=RichText ztext]"); //回答 Elements answer=document2.select(".RichContent-inner"); System.out.println("\n"+"連接:"+URL +"\n"+"標題:"+title.text() +"\n"+"問題描述:"+detail.text() +"\n"+"回答:"+answer.text()); } } }