✨ War Of Resistance Live: 記錄14年抗戰的日日夜夜
在目前浮躁的互聯網環境下,作一件好事不難,難的是連續8年作一件有意義的事。python
在微博上有這樣一位博主,從2012年7月7日開始,截至到2020年9月2日,@抗戰直播 以圖文形式,記錄了從1937年7月7日至1945年8月15日中華民族全面抗戰的這段歷史。2980 天,從未間斷,平均天天 12 條,累計 35214 篇。git
2020年9月18日7時零7分,沉寂了半個月的 @抗戰直播 恢復更新,他們將繼續以圖文的形式記錄1931年9月18日至1937年7月7日這六年的抗戰歷史。程序員
下一個 6 年,他們已經在路上。github
歷史是不能被遺忘的。shell
做爲程序員的我,在歷史面前,我能作點什麼?express
除了敬佩 @抗戰直播 這麼多年來的堅持,我更想作一點本身力所能及且有意義的事情。npm
在獲得博主 @抗戰直播 的容許與支持後,因而就有了這個項目的誕生。json
├── .github/workflows # 工做流配置文件 ├── resources # 微博數據 ├── site # 博客源碼 └── spider # 微博爬蟲
WarOfResistanceLive 是一個主要由 Python
爬蟲 + Hexo
博客 + Github Actions
持續集成服務組成的開源項目,開源在 GitHub
上,而且部署於 Github Pages
。目前包含如下功能:
RSS
訂閱功能Github Actions
的持續集成服務接下來,我將簡單的給你們介紹該項目的一些核心邏輯與實現。
該項目使用的爬蟲是基於 weibo-crawler 項目的簡化及修改實現(僅供研究使用),感謝做者 dataabc。
經過開發者工具查看得知,經過 json
接口 https://m.weibo.cn/api/container/getIndex
便可獲取微博數據列表:
def get_json(self, params): """獲取網頁中json數據""" url = 'https://m.weibo.cn/api/container/getIndex?' r = requests.get(url, params=params, headers=self.headers, verify=False) return r.json()
安裝依賴:
pip3 install -r requirements.txt
使用:
python weibo.py
cookie
邏輯獲取所有數據;更多內容可查看 weibo-crawler。
通過了一番的抉擇,最終選擇 Hexo + Next 主題做爲本項目的博客框架。
Hexo
是一款基於 Node.js
的靜態博客框架,依賴少易於安裝使用,能夠方便的生成靜態網頁託管在 GitHub Pages
上,還有豐富的主題可供挑選。關於如何安裝使用 Hexo
可詳細查看官方文檔:https://hexo.io/zh-cn/docs/。
那麼,如何實現 RSS
訂閱功能呢?
得益於 Hexo
豐富的插件功能,hexo-generator-feed 能夠很方便的幫咱們實現。
首先,在博客根目錄下安裝該插件:
$ npm install hexo-generator-feed --save
接着,在博客根目錄下的 _config.yml
文件中添加相關配置:
feed: enable: true # 是否啓用插件 type: atom # Feed的類型,支持 atom 和 rss2,默認 atom path: atom.xml # 生成文件的路徑 limit: 30 # 生成最大文章數,若是爲 0 或 false 則生成全部的文章 content: true # 若是爲 true 則展現文章全部內容 content_limit: # 文章展現的內容長度,僅當 content 爲 false 有效 order_by: -date # 按照日期排序 template: # 自定義模板路徑
最後,在主題根目錄下的 _config.yml
文件中添加 RSS
訂閱入口:
menu: RSS: /atom.xml || fa fa-rss # atom.xml文件路徑地址和圖標設置
這樣,咱們就能夠爲本身的博客添加 RSS
訂閱功能。WarOfResistanceLive 的訂閱地址爲:
https://kokohuang.github.io/WarOfResistanceLive/atom.xml
Github Actions
是由 Github
於 2018年10月
推出的持續集成服務,在此以前,咱們可能更多的使用 Travis CI
來實現持續集成服務。以我我的的感受來看,Github Actions
功能很是強大,比 Travis CI
的可玩性更高,Github Actions
擁有豐富的 action
市場,將這些 action
組合起來,咱們就能夠很簡單的完成不少頗有趣的事情。
咱們先來看看Github Actions
的一些基本概念:
.github/workflows
目錄中,可包含多個;workflow
可包含一個或多個 jobs
,即表明一次集成的運行,可完成一個或多個任務;job
由多個 step
組成,即表明完成一個任務須要哪些步驟;step
裏面可包含一個或多個 action
,即表明一個步驟內,可執行多個 action
動做。瞭解了 Github Actions
的這些基本概念後,咱們來看看 WarOfResistanceLive 的持續集成服務是怎樣實現的,如下是本項目使用的 workflow
完整實現:
# workflow 的名稱 name: Spider Bot # 設置時區 env: TZ: Asia/Shanghai # 設置工做流觸發方式. on: # 定時觸發,在 8:00-24:00 間每隔 2 小時更新一次(https://crontab.guru) # 因爲 cron 設定的時間爲 UTC 時間,因此 +8 即爲北京時間 schedule: - cron: "0 0-16/2 * * *" # 容許手動觸發 Actions workflow_dispatch: jobs: build: # 使用 ubuntu-latest 做爲運行環境 runs-on: ubuntu-latest # 將要執行的任務序列 steps: # 檢出倉庫 - name: Checkout Repository uses: actions/checkout@v2 # 設置 Python 環境 - name: Setup Python uses: actions/setup-python@v2 with: python-version: "3.x" # 緩存 pip 依賴 - name: Cache Pip Dependencies id: pip-cache uses: actions/cache@v2 with: path: ~/.cache/pip key: ${{ runner.os }}-pip-${{ hashFiles('./spider/requirements.txt') }} restore-keys: | ${{ runner.os }}-pip- # 安裝 pip 依賴 - name: Install Pip Dependencies working-directory: ./spider run: | python -m pip install --upgrade pip pip install flake8 pytest if [ -f requirements.txt ]; then pip install -r requirements.txt; fi # 運行爬蟲腳本 - name: Run Spider Bot working-directory: ./spider # 指定工做目錄,僅對 run 命令生效 run: python weibo.py # 獲取系統當前時間 - name: Get Current Date id: date run: echo "::set-output name=date::$(date +'%Y-%m-%d %H:%M')" # 提交修改 - name: Commit Changes uses: EndBug/add-and-commit@v5 with: author_name: Koko Huang author_email: huangjianke@vip.163.com message: "已同步最新數據(${{steps.date.outputs.date}})" add: "./" env: GITHUB_TOKEN: ${{ secrets.GITHUB_TOKEN }} # 推送遠端 - name: Push Changes uses: ad-m/github-push-action@master with: branch: main github_token: ${{ secrets.GITHUB_TOKEN }} # 設置 Node.js 環境 - name: Use Node.js 12.x uses: actions/setup-node@v1 with: node-version: "12.x" # 緩存 NPM 依賴 - name: Cache NPM Dependencies id: npm-cache uses: actions/cache@v2 with: path: ~/.npm key: ${{ runner.os }}-node-${{ hashFiles('./site/package-lock.json') }} restore-keys: | ${{ runner.os }}-node- # 安裝 NPM 依賴 - name: Install NPM Dependencies working-directory: ./site run: npm install # 構建 Hexo - name: Build Hexo working-directory: ./site # 指定工做目錄,僅對 run 命令生效 run: npm run build # 發佈 Github Pages - name: Deploy Github Pages uses: peaceiris/actions-gh-pages@v3 with: github_token: ${{ secrets.GITHUB_TOKEN }} publish_dir: ./site/public # 指定待發布的路徑地址 publish_branch: gh-pages # 指定遠程分支名稱
workflow
文件的配置字段很是多,配置文件中也給出了詳細的註釋。接下來,咱們主要看下如下幾個比較重要的配置:
# 設置工做流觸發方式. on: # 定時觸發,在 8:00-24:00 間每隔 2 小時更新一次(https://crontab.guru) # 因爲 cron 設定的時間爲 UTC 時間,因此 +8 即爲北京時間 schedule: - cron: "0 0-16/2 * * *" # 容許手動觸發工做流程 workflow_dispatch:
咱們可使用 on
工做流程語法配置工做流程爲一個或多個事件運行。支持自動與手動兩種方式觸發。schedule
事件容許咱們在計劃的時間觸發工做流程,咱們可使用 POSIX cron 語法 來安排工做流程在特定的時間運行。
計劃任務語法有五個字段,中間用空格分隔,每一個字段表明一個時間單位:
┌───────────── minute (0 - 59) │ ┌───────────── hour (0 - 23) │ │ ┌───────────── day of the month (1 - 31) │ │ │ ┌───────────── month (1 - 12 or JAN-DEC) │ │ │ │ ┌───────────── day of the week (0 - 6 or SUN-SAT) │ │ │ │ │ │ │ │ │ │ │ │ │ │ │ * * * * *
咱們可使用 https://crontab.guru 來生成計劃任務語法,你也能夠查看更多的 crontab guru 示例。
另外,咱們還能夠經過配置 workflow_dispatch
和 repository_dispatch
字段來實現手動觸發工做流程。
on
字段也能夠配置爲 push
,即倉庫有 push
操做時則觸發工做流的執行,詳細的觸發工做流配置能夠查看 配置工做流程事件。
從配置文件中咱們能夠看到,該項目的一次持續集成的運行包含了如下步驟:
檢出倉庫 --> 設置 Python
環境 --> 緩存 pip
依賴 --> 安裝 pip
依賴 --> 運行爬蟲腳本 --> 獲取當前時間 --> 提交修改 --> 推送遠端 --> 設置 Node.js
環境 --> 緩存 NPM
依賴 --> 安裝 NPM
依賴 --> 構建 Hexo
--> 發佈 Github Pages
本項目的 workflow
主要有如下幾個要點:
ubuntu-latest
。還能夠指定其餘虛擬環境,如 Windows Server
、macOS
等;commit message
中使用到了該步驟中獲取到當前時間,這裏就使用到了 step 上下文 的相關概念,咱們能夠爲 step
指定一個 id
,後續 step
中咱們就能夠經過 steps.<step id>.outputs
來獲取已經運行的步驟相關信息;Hexo
:即執行 hexo generate
命令生成靜態網頁;GitHub
提供一個令牌,可用於表明 GitHub Actions
進行身份驗證。咱們所須要作的就是建立一個命名爲 GITHUB_TOKEN
的令牌。具體步驟以下:Settings
--> Developer settings
--> Personal access tokens
--> Generate new token
,命名爲 GITHUB_TOKEN
,並勾選中你所須要的的權限,而後就能夠在 step
中經過使用 ${{ secrets.GITHUB_TOKEN }}
進行身份驗證。更多 Action
可在 Github
官方市場 查看。
最後,引用博主 @抗戰直播 的一段話:
「咱們直播抗戰,並不是爲了鼓動仇恨等負面的情緒,而是想適度喚起遺忘,當咱們時刻牢記祖輩們蒙受的苦難、恐懼和屈辱時;當咱們體味祖輩們是如何在國家民族危亡之際拋棄前嫌,實現民族和解時,當咱們目擊着祖輩們是如何從容慷慨的走向死亡,以身體爲這個國家獻祭之時,相信咱們對於現實將有更加成熟和理性的思考。」
銘記歷史,砥礪奮進。
勿忘國恥,吾輩自強。