相信堅持的力量!Elastic 日報 1000期+ 了......

一、什麼是 Elastic 日報?
Elastic 日報是由魏彬老師(中國首位 Elastic 認證工程師)發起的,對標參考的是灣區日報。git

相信堅持的力量!Elastic 日報 1000期+ 了......

發佈週期:天天推送 3 篇+ Elastic stack 相關文章。
發佈地址:Elasticsearch 中文社區網站:elasticsearch.cn,並支持郵件推送。
核心使命:專一 Elastic Stack 技術棧,天天精選推送3篇優質文章,助力你我天天精進一點點。
第 1 期日報的發佈日期爲:2017-07-30日,除節假日外,週末無休,到今天已堅持了近3年。github

二、Elastic 日報編輯
幾乎都是來自一線互聯網公司的 Elastic Stack技術棧的實踐者、愛好者。centos

共10幾位編輯,天天一位輪值(共7位),一位負責審稿,其餘替補輔助。微信

三、Elastic 日報文章怎麼選擇?
積累的境內外優秀博客資源庫文章篩選,如:Elasticsearch 官方博客app

平時工做實戰中發現的優秀博文或者精彩問答curl

國內外資源庫的檢索 包含但不限於:google,stackoverflow,discuss.elastic.co,github,twitter, facebook, 微信搜索,微博搜索,知乎,簡書等elasticsearch

平時關注的 Elasticsearch 相關公衆號的推文ide

朋友圈、看一看等發現的好友推薦的文章性能

等等等等優化

總之,各位編輯不會放過全球任何一篇 Elastic Stack 優秀文章。

四、Elastic 日報 是 Elastic stack 技術圈子 最牛逼的文章彙集地,沒有之一!
如題,不解釋。

五、1000 期日報可視化統計分析
5.1 實現步驟拆解
爬蟲確立數據源

Elastic 日報是分散到Elastic 中文社區的,時間跨度3年+,能夠逐個翻看,但要僅針對全量的日報文章檢索,是不支持的。

數據清洗

(1)各位編輯的風格有不一致的地方,須要清洗一致。

(2)爲實現數據的多維分析,日報數據作必要的字段擴充。

數據建模(Mapping定義)

結合可視化分析呈現,準確敲定字段類型。

數據可視化分析 多種分析維度展現日報數據。

從採集到最後可視化的全過程推薦閱讀:實戰 | ELK實現全量Elastic日報(2017-2019)多維度可視化分析。

本文是基於去年思路作了擴展,細節再也不重複贅述。

5.2 可視化分析結果
5.2.1 全維度展現

相信堅持的力量!Elastic 日報 1000期+ 了......
5.2.2 總量統計
1000篇 日報,共 2707 篇文章(過濾掉了一些廣告文)。

相信堅持的力量!Elastic 日報 1000期+ 了......
5.2.3 走勢統計

相信堅持的力量!Elastic 日報 1000期+ 了......
按月統計,藉助:data_histogram實現。

5.2.4 日報編輯發文統計
相信堅持的力量!Elastic 日報 1000期+ 了......

日報編輯發文佔比統計 Top 10。

5.2.5 日報標題詞頻統計

相信堅持的力量!Elastic 日報 1000期+ 了......
相信堅持的力量!Elastic 日報 1000期+ 了......

詞雲圖是藉助Kibana實現,詞頻統計圖爲了清晰展現藉助excel報表實現。

詞雲實現藉助: fielddata實現。

能夠看到:系統、構建、指南、運行、插件、性能、實現、索引、分析、優化、實戰、監控、查詢 這些都是Elastic 從業者最熟悉的詞!

5.2.6 日報來源統計
這是本次統計較去年文章不一樣的地方。主要作了:短地址轉長地址,長地址提取主域名,主域名統計分析。

相信堅持的力量!Elastic 日報 1000期+ 了......

相信堅持的力量!Elastic 日報 1000期+ 了......

看的出來,這就是Elastic Stack 最牛逼博文來源的排行榜!

微信公衆號、Elastic 官方博客、Github的文章位列前三甲,文章質量相對較高,深得各位編輯的喜好!

值得一提的是:國外博客平臺:medium 相似國內的簡書,文章質量極高!

這也給咱們後續篩選優質技術博文提供了依據。

六、實踐避坑
6.1 詞雲呈現
text 類型自己不支持聚合,建模階段須要開啓:fielddata:true。以實現 text 字符串的切分。

爲後續詞雲作準備。

實現以下:

"title": {
"type": "text",
"analyzer": "ik_smart",
"fielddata": true,
"fields": {
"keyword": {
"type": "keyword",
"ignore_above": 256
}
}
}
6.2 短地址轉長地址
日報 url 格式都是短連接地址。若是要作發文域名統計,勢必要先將短地址轉爲長地址。

而後將長地址的主域名解析提取出來。

短地址轉長地址方案有不少,推薦以下 head 請求方式實現:

[root@centos ~]# curl -s head http://t.cn/A6y0HNBq |grep HREF | awk -F "=" '{ print $2 }' | awk -F "\"" '{ print $2}'

https://medium.com/@tharangarajapaksha/elk-stack-in-k8s-cluster-13bb509185e0
其餘方案以下,對非國內長連接不適用。

try:
response = urllib.request.urlopen( url, timeout=500 )
except Exception as e:
print( "error: " + str( e ) )
return ""

return response.geturl( )
七、全量 日報 Excel 下載地址
全量日報列表下載,全網首發。

留言回覆:日報 獲取下載連接。

相信能助力你的工做,節省你的時間。

七、小結
medcl 大神在1000期的日報羣裏寫到:「這就是堅持的力量」!

是的,相信堅持的力量,才能變不可能爲可能,變可能爲必定能!

期待第10000期,第100000期 Elastic 日報......

不足之處:仍沒有 content 文章正文內容,由於涉及不一樣網站的解析、不一樣語種的翻譯,

若是有了content 文章正文內容就能構建 Elastic 日報全文知識庫,方便全文檢索,更有價值!

相信堅持的力量!Elastic 日報 1000期+ 了......

更短期更快習得更多幹貨!

全國近 1/4 的 Elastic 認證工程師都出自這裏!

閱讀原文

相關文章
相關標籤/搜索