我讀《大數據時代的IT架構設計》

時間 2019-11-17

標籤大數據時代的IT架構設計欄目系統架構简体版

原文原文鏈接

架構設計是一門藝術，對架構的掌握要經過多看，多學，多交流，多積累，從實戰架構上總能吸取到很好的養分，這邊書雖然mysql

（一）.hadoop技術處理電信行業的上網日誌

根據上網的url或未知url爬取內容，進行分類，根據模型統計出我的喜愛，從何精準營銷。

經典hadoop應用分層：

接口層：負責與外部數據的交換

數據層：分佈式大數據處理平臺

資源層：相似ISSA，實現對物理資源的自動部署和動態擴展

功能層：流程，調度，監控，元數據管理，安全等

應用層：詞庫分類，分類索引，負責應用功能的具體算法

展現層：web展現應用層處理的結果

網絡爬蟲：爬去url中的內容

（二） .Hadoop平臺在金融銀行業的應用架構

在覈心繫統層，增長hadoop平臺實現歷史數據存儲備份、對外提供數據查詢、基於存儲提供數據挖掘

（三） .優酷hadoop平臺開放

主要是安全和開放，安全包括訪問安全（查看數據，hdfs權限）和用戶安全（用戶身份）

開放：規範、流程管理、監控（節點、資源利用率、異常分析、用戶存儲配額、調度隊列）

（四） .推薦平臺

包括實時接入、實時計算、cache分佈式存儲、離線計算平臺、運營平臺

四個關鍵部分：

a:實時接入：管道做用，接入數據，分發給計算平臺

b:流式計算：關注業務特色，業務場景而非平臺架構

c：存儲引擎：寫主讀備

d：推薦引擎：接入、分法計算、真正計算

（五） .社交網絡大數據挖掘與社會化推薦

推薦系統發展：

協同過濾算法CF-->推薦引擎-->item based-->二度好友-->社會化推薦

社會化推薦引擎構成：

好友推薦模型的幾個關鍵算法：

二度好友-->好友簇-->好友圈演化趨勢預估-->好友接受率模型-->多圖譜融合

（六） .微博用戶興趣建模

用戶興趣的三個方面：興趣標籤、興趣詞、興趣分類

實時系統抽取興趣詞，離線挖掘優化

實時抽取：

微博內容-->分詞、分類-->按微博ID存入redis-->超出範圍按userID合併-->非活躍用戶利用歷史redis和實時redis中的同一用戶數據在內存中完成合並

離線挖掘：

減小實時抽取的噪聲，經過計算單詞的上下文類似性來得到詞的類似性，經過詞的類似性創建圖挖掘的一邊，類似度越大，圖越密集，進而有效識別噪聲，挖掘出用戶真正的興趣。

（七）小米移動應用網絡建設和優化

1.移動應用網絡的挑戰：

基於電波傳送信號不穩定；移動網絡尚不成熟；

2.不一樣類型移動網絡速度：

3.小米應對措施：

建設CDN或動態加速節點，源站和節點之間能夠經過廣域網直接對接，也能夠經過速度好的中繼節點；用戶請求重轉；經過TCPXM抓包分析鏈路質量，進而分析；

持續優化：不斷修改IP庫，地域性聯通問題大可考慮拉專線，基於http協議作協議轉換

（八）西門子系統架構管理概念

系統架構全生命週期：

（九）構建高性能、穩定SOA應用

基於消息隊列解耦；流程間按子任務，任務間用消息隊列異步獲取輸入或輸出結果，達到任務間並行的目的，其實只是同時處理，從某一個完成流程來看，其仍是順序的，並且效率是有影響的。

（十）基於開源技術的網絡安全架構

OSSIM系統組成：各種安全設施、代理進程Agent、傳感器、關聯引擎、數據倉庫、web控制檯

數據包經過的路徑：

網卡硬中斷--->軟中斷--->內核協議棧--->系統調用--->socket接口--->libpcap接口--->用戶應用程序

（十一）TOGAF應用架構設計落地

業務架構關鍵：組織機構、業務功能、業務流程

業務功能靠業務流程實現，業務流程由業務步驟組成，業務步驟由組織機構單元承擔

應用架構關鍵：功能和系統，系統是IT功能的承載者。

應用架構建新一代系統工做主線：

業務功能 ---> 業務流程 ---> 業務步驟 ---> 區分全手工半自動全自動業務步驟 ---> 功能分組映射系統，找出IT功能點 ---> 設計IT系統

（十二）分佈式系統安全設計解決

數組簽名確保完整性，對傳遞的信息進行加解密確保私密性。

（十三）淘寶TFS

1.寫入完成後迴向client返回一個由集羣號、block id、file id組成的文件名，方便client經過該文件名訪問存儲的文件。

2.服務端不會馬上刪除文件，先打上標記，當刪除超過必定比例，在低峯期再進行刪除，同時對block進行整理。

3.tfs支持利用tair分佈式存儲將block的位置信息緩存，以便減輕nameserver的訪問壓力。

4.tfs自持經過metaserver的映射關係實現用戶自定義文件名；

5.tfs支持將大文件分散成小文件(2M),而後將多個小文件的名稱做爲新的文件數據存儲到TFS，讀取時根據此新文件的特殊名稱標識知道此乃大文件，因而讀取啓動的小文件名，在從TFS裏讀出各分片數據，從新組合成大文件。

6.機房容災：機房獨立集羣，集羣間同步(經過dataserver在後臺線程重放日誌)保證數據互爲鏡像。

7.多機房多主集羣部署方式，能夠經過必定配置規則如blockid的奇偶性來分開寫，而後對其餘機房彼此同步

8.TFS將全部資源信息存儲在mysql的數據庫裏，經過資源管理服務器rcserver進行統一管理。

（十四）內存做爲統一存儲實實踐

對微博之類的社交類，基礎內存作信息同步的三種模式：

拉模式：查詢此用戶關注的人，而後從這些人中查全部的微博。缺點：是關注的人多時數據大，長時間響應不了。

推模式：爲每一個收聽者創建一個隊列，用戶發了微博後向收聽者隊列插入數據。缺點：大V粉絲多，數據量太大。

內存模式：只更新內存中的收聽用戶隊列，當非內存中的收聽用戶上來時，在內存中利用拉模式構建收聽隊列。

把緩存看成具備必定邏輯結構的存儲體系，注意利用數據填充工具填充新服務器中的緩存數據。

（十五）數據庫優化

優化步驟：設計層 sql調優內存IO層面操做系統優化

儘可能不建索引，實在要建，就建複合壓縮索引

緩存sql語句執行計劃

（十六）京東商城網站架構演變

三個發展時代：

1：asp連db

2：靜態網頁放在cdn中配合動態交易系統（購物車、訂單中心）具體以下： cdn--->web應用 ---> 讀取靜態文件（用生成器生成）

還有幾點：將促銷系統拆分出來，拆分庫存邏輯，db複製

3：

交易系統：前面的負載均衡 ---> web應用 ---> 業務服務層 ---> 基礎服務層

1.核心系統全面服務化，服務框架的基本三功能：路由，fileover機制，服務分組

2.數據訪問分庫分表

3.緩存

大流量下的四步：異步化 ---> 限流 ---> 分流 ---> 降級

（十七）新浪視頻後臺架構變遷

的

視頻點播CDN:

每一個squid將io、鏈接數等狀態報告給數據中心，播放接口根據統計信息將用戶引導到離他近且狀態良好的節點上：

視頻直播：

視頻存儲：

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。