java 利用jsoup 爬取知乎首頁問題

時間 2019-11-24

標籤 java 利用 jsoup 首頁問題欄目 Java 简体版

原文原文鏈接

今天學了下java的爬蟲，首先要下載jsoup的包，而後導入，導入過程：首先右擊工程：Build Path ->configure Build Path,再點擊Add External JARS，進行導包。java

學習參考文檔：https://jsoup.org/node

可是有一點小問題：就是利用java爬蟲爬去了知乎的問題，可是卻只爬到了前三條，大致思路應該仍是正確的。不知怎麼解決，若是各位大佬有思路，望指教：學習

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class worm0{
    public static void main(String[] args) throws IOException {
    
        Document document=Jsoup.connect("https://www.zhihu.com/").get();
        Elements main=document.select(".ContentLayout-mainColumn");
        
        Elements url=main.select("h2[class=ContentItem-title]").select("a");
        System.out.println("url"+url);
        for(Element question:url){
            //輸出href後的值，即主頁上每一個關注問題的連接
            String URL=question.attr("abs:href");
            //下載問題連接指向的頁面
            Document document2=Jsoup.connect(URL).get();
            //問題
            Elements title=document2.select(".QuestionHeader-title");
            //問題描述
            Elements detail=document2.select("span[class=RichText ztext]");
            //回答
            Elements answer=document2.select(".RichContent-inner");
            System.out.println("\n"+"連接："+URL
                    +"\n"+"標題："+title.text()
                    +"\n"+"問題描述："+detail.text()
                    +"\n"+"回答："+answer.text());
        }   
    }
}