建站四部曲之Python爬蟲+數據準備篇(selenium)

本系列分爲四篇:

零、前言

本系列爲了總結一下手上的知識,致敬個人2018
本篇的重點在於:使用python爬取數據寫入文件,使用okhttp3訪問後臺接口插入數據
本篇總結的技術點:Python數據抓取okhttp3訪問api接口插入數據庫java文件的簡單操做
Python是我在學完JavaScript的ES6以後學的,三個字---這麼像
因而乎,花了三天看看語法、算算向量、作作爬蟲、數數花生後也就沒在深究了css


1、簡書網頁分析:

1.問題所在

簡書.png

默認加載9個條目,滾到底再加載9個條目
如今問題在於:直接用連接請求,只能加載9條,怎麼能讓它本身滾動  
是問題確定有解決方案,百度下唄,滿目的selenium,好吧,就決定是你了
複製代碼

2.網頁標籤分析:

須要的數據在note-list的ul中,其中一個li以下:
須要的數據有:content的div下的a標籤:href和內容
abstract的p的內容,time的span下的:data-shared-athtml

<li id="note-38135290" data-note-id="38135290" class="have-img">
    <a class="wrap-img" href="/p/0baa4b4b81f4" target="_blank">
      <img class=" img-blur-done" src="//upload-images.jianshu.io/upload_images/9414344-c7c823aafe6938de.png?imageMogr2/auto-orient/strip|imageView2/1/w/300/h/240" alt="120">
    </a>
  <div class="content">
    <a class="title" target="_blank" href="/p/0baa4b4b81f4">建站三部曲以後端接口篇(SpringBoot+上線)</a>
    <p class="abstract">
      本系列分爲三篇: 建站三部曲以後端接口篇(SpringBoot+上線) 建站三部曲以前端顯示篇(React+上線) 建站三部曲之移動端篇(And...
    </p>
    <div class="meta">
      <a target="_blank" href="/p/0baa4b4b81f4">
        <i class="iconfont ic-list-read"></i> 3
</a>        <a target="_blank" href="/p/0baa4b4b81f4#comments">
          <i class="iconfont ic-list-comments"></i> 0
</a>      <span><i class="iconfont ic-list-like"></i> 0</span>
      <span class="time" data-shared-at="2018-12-11T13:16:57+08:00">43分鐘前</span>
複製代碼

2、二十分鐘入手selenium

1.添加依賴:
pip install selenium
複製代碼

2.下載瀏覽器插件(我是用Chrome,下載地址:)

注意對應版本下載前端

下載插件.png


3.使用:
from selenium import webdriver #導包

driver = webdriver.Chrome("I:\Python\chromedriver.exe")#建立driver,參數爲插件的路徑
driver.get("https://www.jianshu.com/u/e4e52c116681")#打開網頁
driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')#下滑
複製代碼

使用.png


4.間隔時間任務:

問題又來了,貌似只能執行一次,那就用輪訓任務吧java

TimeTask.py
from datetime import datetime, timedelta

class TimeTask:
    def __init__(self):
        self.count = 0  # 成員變量(實例變量)

    def runTask(self, func, day=0, hour=0, min=0, second=1, count=20):
        now = datetime.now()
        period = timedelta(days=day, hours=hour, minutes=min, seconds=second)
        next_time = now + period
        strnext_time = next_time.strftime('%Y-%m-%d %H:%M:%S')
        while self.count < count:
            # Get system current time
            iter_now = datetime.now()
            iter_now_time = iter_now.strftime('%Y-%m-%d %H:%M:%S')
            if str(iter_now_time) == str(strnext_time):
                func()
                self.count += 1
                iter_time = iter_now + period
                strnext_time = iter_time.strftime('%Y-%m-%d %H:%M:%S')
                continue
複製代碼
getHtml.py
from selenium import webdriver
from utils.TimeTask import TimeTask

def fetch():
    driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')

if __name__ == '__main__':
    driver = webdriver.Chrome("I:\Python\chromedriver.exe")
    driver.get("https://www.jianshu.com/u/e4e52c116681")
    timeTask = TimeTask()
    timeTask.runTask(fetch, 0, 0, 0, 1, 5)
複製代碼

滾動五次.gif


3、獲取須要的數據:

1.獲取名稱

selenium的強大之處在於能夠查詢dom結構,哈哈,css沒白學
須要的數據都在content類下,選擇器爲:.note-list li .content 使用find_elements_by_css_selector可使用css選擇器獲取一個listpython

content = driver.find_elements_by_css_selector('.note-list li .content')

#遍歷content就好了
for i in content:
    a = i.find_element_by_css_selector(' a.title') #獲取a標籤
    print(a.text) #打印
複製代碼

白花花的數據就到手裏 react

獲取數據.png


2.接下來同樣的思路
for i in content:
    a = i.find_element_by_css_selector(' a.title')
    info = i.find_element_by_css_selector(' p.abstract')
    time = i.find_element_by_css_selector('span.time')
    href = a.get_attribute('href')
    print(a.text)
    print(href)
    print(info.text)
    print(time.get_attribute("data-shared-at"))
複製代碼

數據.png


3.將字符串寫入文件中

將數據稍微裝飾一下,以&&&分割每一個條目,以```分割每一個字段android

str = ''
for i in content:
    a = i.find_element_by_css_selector(' a.title')
    info = i.find_element_by_css_selector(' p.abstract')
    time = i.find_element_by_css_selector('span.time')
    href = a.get_attribute('href')
    str += a.text + "```"
    str += href + "```"
    str += info.text + "```"
    str += time.get_attribute("data-shared-at").split('T')[0] + "```"
    str += "&&&"
print(str)
name = 'I:\\Python\\android_data_fetcher\\data\\data.txt'
dirs = os.path.split(name)[0]
is_exist = os.path.exists(dirs)
if not is_exist:
    os.makedirs(dirs)
f = open(name, "w")
f.write(str)  # 存儲到文件中
f.close()
複製代碼

存儲到本地.png

Python任務完成,下一個交接棒就交給java了
想一想如今能幹嗎了——任意一我的的簡書主頁,點一下均可以自動爬取出文章信息
這對整理本身的文章頗有幫助,若是靠手動一篇一篇拷貝,想一想都要崩潰git


2、使用java訪問接口將數據插入服務器

1.文件的讀取:
/**
 * 讀取文件
 *
 * @param in 文件
 * @param  charSet 讀取的編碼
 * @return 文件內容
 */
private static String readFile(File in,String charSet) {
    if (!in.exists() && in.isDirectory()) {
        return "";
    }
    InputStreamReader fr = null;
    try {
        fr = new InputStreamReader(new FileInputStream(in), charSet)
        //字符數組循環讀取
        char[] buf = new char[1024];
        int len = 0;
        StringBuilder sb = new StringBuilder();
        while ((len = fr.read(buf)) != -1) {
            sb.append(new String(buf, 0, len));
        }
        return sb.toString();
    } catch (Exception e) {
        e.printStackTrace();
        return "";
    } finally {
        try {
            if (fr != null) {
                fr.close();
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}
複製代碼

2.讀取文件,分割字段
String result = readFile(new File("I:\\Python\\android_data_fetcher\\data\\data.txt"),"gbk");
String[] split = result.split("&&&");
for (String s : split) {
    String[] item = s.split("```");
    String name = item[0];//名稱
    String jianshuUrl = item[1];//簡書首頁
    String info = item[2];//文章介紹
    String time = item[3];//建立時間
}
複製代碼

讀取文件,分割字段


3.添加okhttp依賴
<!-- https://mvnrepository.com/artifact/com.squareup.okhttp3/okhttp -->
 <dependency>
     <groupId>com.squareup.okhttp3</groupId>
     <artifactId>okhttp</artifactId>
     <version>3.12.0</version>
 </dependency>
複製代碼

4.post請求插入數據的方法
private static void doPost(String url, String name, String info, String jianshuUrl, String createTime) {
    //1.HttpClient對象
    OkHttpClient okHttpClient = new OkHttpClient();
    //2.構造RequestBody
    FormBody body = new FormBody.Builder()
            .add("type", "C")
            .add("name", name)
            .add("localPath", "null")
            .add("jianshuUrl", jianshuUrl)
            .add("juejinUrl", "null")
            .add("info", info)
            .add("imgUrl", name + ".png")
            .add("createTime", createTime)
            .build();
    Request request = new Request.Builder().url(url).post(body).build();
    //3.將Request封裝爲Call對象
    Call call = okHttpClient.newCall(request);
    //4.執行Call
    call.enqueue(new Callback() {
        public void onFailure(Call call, IOException e) {
        }
        public void onResponse(Call call, Response response) throws IOException {
            System.out.println(response.body().string());
        }
    });
}
複製代碼

5.遍歷字段時進行插入數據:請求接口見上篇
public static void main(String[] args) {
    String url = "http://192.168.43.60:8089/api/android/note";
    String result = readFile(new File("I:\\Python\\android_data_fetcher\\data\\data.txt"),"gbk");
    String[] split = result.split("&&&");
    for (String s : split) {
        String[] item = s.split("```");
        String name = item[0];
        String jianshuUrl = item[1];
        String info = item[2];
        String time = item[3];
        System.out.println(name+" "+jianshuUrl);
        try {
            Thread.sleep(10);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
        doPost(url,name,info,jianshuUrl,time);
    }
}
複製代碼

數據插入數據庫.png

訪問接口,能夠獲取數據


6.數據插入到服務器數據庫:

因爲本地和服務器上的配置都同樣,改下ip運行一下就好了:
www.toly1994.com:8089/api/android… 可查全部數據
圖片打算本身來挑選,或製做,類型的分類仍是本身來吧
數據,就這樣吧,雖然簡陋了些...之後慢慢來,畢竟0到1是質變,1到2是量變github


3、圖片的處理

1.簡介

先拿一些測試圖片來用,數據庫中只要存文章名稱.png就好了
service層讀取的時候作了一些小處理,如今也就是要對測試圖片進行重命名web

"imgUrl":"http://192.168.10.101:8089/imgs/android/01-React搭建react環境及SCSS的配置.png"
複製代碼

準備文件.png


2.獲取文章名稱的列表
ArrayList<String> names = new ArrayList<String>();

String[] split = result.split("&&&");
for (String s : split) {
    String[] item = s.split("```");
    String name = item[0];
    names.add(name);
    }
複製代碼

3.遍歷文件夾修更名稱
private static void renameImg(ArrayList<String> names, File dir) {
    File[] files = dir.listFiles();
    for (int i = 0; i < names.size(); i++) {
        File file = files[i];
        file.renameTo(new File(file.getParent(),names.get(i)+".png"));
    }
}
複製代碼

重命名完成.png


4.小問題:

發現有些名字不能作文件名,好吧,考慮步驟,MD5處理一下

//插入數據庫時: 
.add("imgUrl", Md5Util.getMD5(name) + ".png")

//重命名時:
file.renameTo(new File(file.getParent(), Md5Util.getMD5(names.get(i)) + ".png"));
複製代碼
public class Md5Util {
    /**
     * 獲取一個字符串的Md5值
     *
     * @param content 內容
     * @return Md5值
     */
    public static String getMD5(String content) {
        content = content + "芝麻開門";
        try {
            MessageDigest digest = MessageDigest.getInstance("MD5");
            digest.update(content.getBytes());
            return getHashString(digest);
        } catch (NoSuchAlgorithmException e) {
            e.printStackTrace();
        }
        return null;
    }

    private static String getHashString(MessageDigest digest) {
        StringBuilder builder = new StringBuilder();
        for (byte b : digest.digest()) {
            builder.append(Integer.toHexString((b >> 4) & 0xf));
            builder.append(Integer.toHexString(b & 0xf));
        }
        return builder.toString();
    }
}

複製代碼

圖片訪問.png

ok,數據和圖片準備齊全,下一站React前端


後記:捷文規範

1.本文成長記錄及勘誤表
項目源碼 日期 備註
V0.1 2018-12-12 建站四部曲之Python爬蟲+數據準備篇(selenium)
2.更多關於我
筆名 QQ 微信 愛好
張風捷特烈 1981462002 zdl1994328 語言
個人github 個人簡書 個人掘金 我的網站
3.聲明

1----本文由張風捷特烈原創,轉載請註明
2----歡迎廣大編程愛好者共同交流
3----我的能力有限,若有不正之處歡迎你們批評指證,一定虛心改正
4----看到這裏,我在此感謝你的喜歡與支持


icon_wx_200.png
相關文章
相關標籤/搜索