一、什麼是 Elastic 日報?
Elastic 日報是由魏彬老師(中國首位 Elastic 認證工程師)發起的,對標參考的是灣區日報。git
發佈週期:天天推送 3 篇+ Elastic stack 相關文章。
發佈地址:Elasticsearch 中文社區網站:elasticsearch.cn,並支持郵件推送。
核心使命:專一 Elastic Stack 技術棧,天天精選推送3篇優質文章,助力你我天天精進一點點。
第 1 期日報的發佈日期爲:2017-07-30日,除節假日外,週末無休,到今天已堅持了近3年。github
二、Elastic 日報編輯
幾乎都是來自一線互聯網公司的 Elastic Stack技術棧的實踐者、愛好者。centos
共10幾位編輯,天天一位輪值(共7位),一位負責審稿,其餘替補輔助。微信
三、Elastic 日報文章怎麼選擇?
積累的境內外優秀博客資源庫文章篩選,如:Elasticsearch 官方博客app
平時工做實戰中發現的優秀博文或者精彩問答curl
國內外資源庫的檢索 包含但不限於:google,stackoverflow,discuss.elastic.co,github,twitter, facebook, 微信搜索,微博搜索,知乎,簡書等elasticsearch
平時關注的 Elasticsearch 相關公衆號的推文ide
朋友圈、看一看等發現的好友推薦的文章性能
等等等等優化
總之,各位編輯不會放過全球任何一篇 Elastic Stack 優秀文章。
四、Elastic 日報 是 Elastic stack 技術圈子 最牛逼的文章彙集地,沒有之一!
如題,不解釋。
五、1000 期日報可視化統計分析
5.1 實現步驟拆解
爬蟲確立數據源
Elastic 日報是分散到Elastic 中文社區的,時間跨度3年+,能夠逐個翻看,但要僅針對全量的日報文章檢索,是不支持的。
數據清洗
(1)各位編輯的風格有不一致的地方,須要清洗一致。
(2)爲實現數據的多維分析,日報數據作必要的字段擴充。
數據建模(Mapping定義)
結合可視化分析呈現,準確敲定字段類型。
數據可視化分析 多種分析維度展現日報數據。
從採集到最後可視化的全過程推薦閱讀:實戰 | ELK實現全量Elastic日報(2017-2019)多維度可視化分析。
本文是基於去年思路作了擴展,細節再也不重複贅述。
5.2 可視化分析結果
5.2.1 全維度展現
5.2.2 總量統計
1000篇 日報,共 2707 篇文章(過濾掉了一些廣告文)。
5.2.3 走勢統計
按月統計,藉助:data_histogram實現。
5.2.4 日報編輯發文統計
日報編輯發文佔比統計 Top 10。
5.2.5 日報標題詞頻統計
詞雲圖是藉助Kibana實現,詞頻統計圖爲了清晰展現藉助excel報表實現。
詞雲實現藉助: fielddata實現。
能夠看到:系統、構建、指南、運行、插件、性能、實現、索引、分析、優化、實戰、監控、查詢 這些都是Elastic 從業者最熟悉的詞!
5.2.6 日報來源統計
這是本次統計較去年文章不一樣的地方。主要作了:短地址轉長地址,長地址提取主域名,主域名統計分析。
看的出來,這就是Elastic Stack 最牛逼博文來源的排行榜!
微信公衆號、Elastic 官方博客、Github的文章位列前三甲,文章質量相對較高,深得各位編輯的喜好!
值得一提的是:國外博客平臺:medium 相似國內的簡書,文章質量極高!
這也給咱們後續篩選優質技術博文提供了依據。
六、實踐避坑
6.1 詞雲呈現
text 類型自己不支持聚合,建模階段須要開啓:fielddata:true。以實現 text 字符串的切分。
爲後續詞雲作準備。
實現以下:
"title": {
"type": "text",
"analyzer": "ik_smart",
"fielddata": true,
"fields": {
"keyword": {
"type": "keyword",
"ignore_above": 256
}
}
}
6.2 短地址轉長地址
日報 url 格式都是短連接地址。若是要作發文域名統計,勢必要先將短地址轉爲長地址。
而後將長地址的主域名解析提取出來。
短地址轉長地址方案有不少,推薦以下 head 請求方式實現:
[root@centos ~]# curl -s head http://t.cn/A6y0HNBq |grep HREF | awk -F "=" '{ print $2 }' | awk -F "\"" '{ print $2}'
https://medium.com/@tharangarajapaksha/elk-stack-in-k8s-cluster-13bb509185e0
其餘方案以下,對非國內長連接不適用。
try:
response = urllib.request.urlopen( url, timeout=500 )
except Exception as e:
print( "error: " + str( e ) )
return ""
return response.geturl( )
七、全量 日報 Excel 下載地址
全量日報列表下載,全網首發。
留言回覆:日報 獲取下載連接。
相信能助力你的工做,節省你的時間。
七、小結
medcl 大神在1000期的日報羣裏寫到:「這就是堅持的力量」!
是的,相信堅持的力量,才能變不可能爲可能,變可能爲必定能!
期待第10000期,第100000期 Elastic 日報......
不足之處:仍沒有 content 文章正文內容,由於涉及不一樣網站的解析、不一樣語種的翻譯,
若是有了content 文章正文內容就能構建 Elastic 日報全文知識庫,方便全文檢索,更有價值!
更短期更快習得更多幹貨!
全國近 1/4 的 Elastic 認證工程師都出自這裏!
閱讀原文