大數據和雲計算技術週報(第107期)
原創 編輯部 大數據和雲計算技術 2019-06-17html
導語
「大數據」 三個字實際上是個marketing語言,從技術角度看,包含範圍很廣,計算、存儲、網絡都涉及,知識點廣、學習難度高。程序員
本期會給你們奉獻上精彩的:spark、知識圖譜、MongoDB、全鏈路壓測、ES、數據庫原理、redis、Kylin、數據。全是乾貨,但願你們喜歡!!!redis
#大數據和雲計算技術社區#但願經過堅持按期分享能幫助同窗在大數據學習道路上盡一份微博之力。相信長期堅持認真閱讀週報的同窗,在技術的道路上必定會日益精進!感謝編輯們的長期堅持!也請同窗們繼續打賞,支持社區,支持編輯們持續奉獻高質量知識!數據庫
#大數據和雲計算技術社區#長期招募有興趣參與社區編輯和運營的同窗,歡迎掃描文末二維碼聯繫(參與社區工做,收穫知識和進步,還有紅包哦)。數組
特別提醒,文末有驚喜!網絡
如下是正文,限於衆編輯水平有限,不保證你們都喜歡。(若是連接不能點開 請用二維碼 謝謝)架構
1Sparkelasticsearch
Spark應用中,Shuffle服務的可靠性和性能直接影響了Spark應用的執行效率,來自Facebook的Brian Cho與Dmitry Borovsky在今年4月份舊金山舉行的Spark AI峯會上,分享了他們爲Spark/Hive Shuffle優化作的工做,這些工做中的很大部分已經應用於Facebook的大數據平臺生產環境,對於超大規模的Spark數據處理優化,有必定的參考借鑑價值。ide
https://mp.weixin.qq.com/s/ly8E01HIM_GgGz8KKfVGYQ性能
Spark SQL 是 Spark 衆多組件中技術最複雜的組件之一,它同時支持 SQL 查詢和 DataFrame DSL。經過引入了 SQL 的支持,大大下降了開發人員的學習和使用成本。
https://mp.weixin.qq.com/s/crDp5SvrkbnZ7DPQ50tpIA
2Elastic
使用ignore-malformed功能解決數據類型不一致沒法寫入問題
3ProxySQL
ProxySQL是一個高性能的MySQL中間件,擁有強大的規則引擎。
ProxySQL提供強大的路由規則。當應用程序自身不支持讀寫分離時,DBA能夠經過配置路由規則爲應用程序提供透明的讀寫分離,使用Keepalived + ProxySQL + Orchestrator爲主從提供高可用時,可以有效的避免keepalived + 雙主結構 因爲keepalived腦裂而形成數據被寫錯亂的痛點。
https://mp.weixin.qq.com/s/RwupNscnTKJgLuIfMqda3A
4數據庫
X-Engine團隊撰寫的論文"X-Engine: An Optimized Storage Engine for Large-scale E-Commerce Transaction Processing",詳細講述了阿里在數據庫存儲引擎上所作的原創性工做,今年早些時候已經被SIGMOD'19 Industrial Track接收
https://mp.weixin.qq.com/s/XkG7ikHzf3IdEltv3YmvSA
5MongoDB
本文講述了MongoDB WiredTiger存儲引擎中的底層時間戳的實現使得從節點讀取不會被複制更新中斷,複製回滾,保證多文檔ACID事務正確性。
http://www.mongoing.com/archives/26700
6系統架構
在創業公司,沒有大公司那些完善的基礎設施,須要咱們從開源界,從雲服務商甚至有些須要本身去組合,去拼裝,去開發一個適合本身的組件或系統以達成目標。
https://mp.weixin.qq.com/s/CzZZcjkiyLh7k6o-3gP3Ag
7知識圖譜
本文介紹將知識圖譜做爲輔助信息引入到推薦系統中能夠有效地解決傳統推薦系統存在的稀疏性和冷啓動問題.
https://mp.weixin.qq.com/s/ZYLM3pt5w2gJXr0VUbNXSA
8Data
現在,大數據如火如荼,拋開數據談大數據服務就是瞎扯,沒有數據做支撐的大數據平臺就是一個空殼,那這些數據的來源在哪呢?
https://mp.weixin.qq.com/s/Mj3byciIJoWQEKlug8s-yw
9Kylin
Apache Kylin 在今年 4 月 18 日發佈了 3.0.0 Alpha 版本,本文主要圍繞 Release notes 內提到的三個功能展開介紹,即:基於 Curator 的做業調度器,使用 Apache Livy 提交 Spark 任務,實時 OLAP。
https://mp.weixin.qq.com/s/qbRXqCEIW70kXm2RPxeu5Q
10Redis
本文首先經過Redis到底能存儲多少個鍵值對,引出Redis的Hash表實現方式(數組鏈表)、擴縮容等原理,最後經過一個開腦洞的思考探討,分析了各類利弊,最終討論Redis到底存儲多少個鍵值對會比較好(最多千萬級別
https://mp.weixin.qq.com/s/Y4DARDPPSkIpme4psMT8Nw
11全鏈路壓測
經過對壓測實施的具體動做作統一的梳理,在壓測各個階段推動標準化和自動化,盡力提高全流程的執行效率,最終達到常態化的目標
https://mp.weixin.qq.com/s/qeHHTjhEeZ-VskL_8ac0Tg
11開心一刻
程序員愛情觀:愛情就是死循環,一旦執行就陷進去了;愛上一我的,就是內存泄漏–你永遠釋放不了;真正愛上一我的的時候,那就是常量限定,永遠不會改變;女友就是私有變量,只有我這個類才能調用;情人就是指針用的時候必定要注意,要否則就帶來巨大的災難。