我讀《大數據時代的IT架構設計》

架構設計是一門藝術,對架構的掌握要經過多看,多學,多交流,多積累,從實戰架構上總能吸取到很好的養分,這邊書雖然mysql

(一).hadoop技術處理電信行業的上網日誌
根據上網的url或未知url爬取內容,進行分類,根據模型統計出我的喜愛,從何精準營銷。
經典hadoop應用分層:
接口層:負責與外部數據的交換
數據層:分佈式大數據處理平臺
資源層:相似ISSA,實現對物理資源的自動部署和動態擴展
功能層:流程,調度,監控,元數據管理,安全等
應用層:詞庫分類,分類索引,負責應用功能的具體算法
展現層:web展現應用層處理的結果
網絡爬蟲:爬去url中的內容
(二) .Hadoop平臺在金融銀行業的應用架構
在覈心繫統層,增長hadoop平臺實現歷史數據存儲備份、對外提供數據查詢、基於存儲提供數據挖掘
(三) .優酷hadoop平臺開放
主要是安全和開放, 安全包括訪問安全(查看數據,hdfs權限)和用戶安全(用戶身份)
開放:規範、流程管理、監控(節點、資源利用率、異常分析、用戶存儲配額、調度隊列)
(四) .推薦平臺
包括實時接入、實時計算、cache分佈式存儲、離線計算平臺、運營平臺

四個關鍵部分:
a:實時接入:管道做用,接入數據,分發給計算平臺
b:流式計算:關注業務特色,業務場景而非平臺架構
c:存儲引擎:寫主讀備
d:推薦引擎:接入、分法計算、真正計算
(五) .社交網絡大數據挖掘與社會化推薦
推薦系統發展:
協同過濾算法CF-->推薦引擎-->item based-->二度好友-->社會化推薦
社會化推薦引擎構成:
好友推薦模型的幾個關鍵算法:
二度好友-->好友簇-->好友圈演化趨勢預估-->好友接受率模型-->多圖譜融合
(六) .微博用戶興趣建模
用戶興趣的三個方面:興趣標籤、興趣詞、興趣分類
實時系統抽取興趣詞,離線挖掘優化
實時抽取:
微博內容-->分詞、分類-->按微博ID存入redis-->超出範圍按userID合併-->非活躍用戶利用歷史redis和實時redis中的同一用戶數據在內存中完成合並
離線挖掘:
減小實時抽取的噪聲,經過計算單詞的上下文類似性來得到詞的類似性,經過詞的類似性創建圖挖掘的一邊,類似度越大,圖越密集,進而有效識別噪聲, 挖掘出用戶真正的興趣。
(七)小米移動應用網絡建設和優化
1.移動應用網絡的挑戰:
基於電波傳送信號不穩定;移動網絡尚不成熟;
2.不一樣類型移動網絡速度:
3.小米應對措施:
建設CDN或動態加速節點,源站和節點之間能夠經過廣域網直接對接,也能夠經過速度好的中繼節點;用戶請求重轉;經過TCPXM抓包分析鏈路質量,進而分析;
持續優化:不斷修改IP庫,地域性聯通問題大可考慮拉專線,基於http協議作協議轉換
(八)西門子系統架構管理概念
系統架構全生命週期:

(九)構建高性能、穩定SOA應用
基於消息隊列解耦;流程間按子任務,任務間用消息隊列異步獲取輸入或輸出結果,達到任務間並行的目的,其實只是同時處理,從某一個完成流程來看,其仍是順序的,並且效率是有影響的。
(十)基於開源技術的網絡安全架構
OSSIM系統組成:各種安全設施、代理進程Agent、傳感器、關聯引擎、數據倉庫、web控制檯
數據包經過的路徑:
網卡硬中斷--->軟中斷--->內核協議棧--->系統調用--->socket接口--->libpcap接口--->用戶應用程序
(十一)TOGAF應用架構設計落地
業務架構關鍵:組織機構、業務功能、業務流程
業務功能靠業務流程實現,業務流程由業務步驟組成,業務步驟由組織機構單元承擔
應用架構關鍵:功能和系統,系統是IT功能的承載者。
應用架構建新一代系統工做主線:
業務功能 ---> 業務流程 ---> 業務步驟 ---> 區分全手工半自動全自動 業務步驟 ---> 功能分組映射系統,找出IT功能點 ---> 設計IT系統
(十二)分佈式系統安全設計解決
數組簽名確保完整性,對傳遞的信息進行加解密確保私密性。
(十三)淘寶TFS
1.寫入完成後迴向client返回一個由集羣號、block id、file id組成的文件名,方便client經過該文件名訪問存儲的文件。
2.服務端不會馬上刪除文件,先打上標記,當刪除超過必定比例,在低峯期再進行刪除,同時對block進行整理。
3.tfs支持利用tair分佈式存儲將block的位置信息緩存,以便減輕nameserver的訪問壓力。
4.tfs自持經過metaserver的映射關係實現用戶自定義文件名;
5.tfs支持將大文件分散成小文件(2M),而後將多個小文件的名稱做爲新的文件數據存儲到TFS,讀取時根據此新文件的特殊名稱標識知道此乃大文件,因而讀取啓動的小文件名,在從TFS裏讀出各分片數據,從新組合成大文件。
6.機房容災:機房獨立集羣,集羣間同步(經過dataserver在後臺線程重放日誌)保證數據互爲鏡像。
7.多機房多主集羣部署方式,能夠經過必定配置規則如blockid的奇偶性來分開寫,而後對其餘機房彼此同步
8.TFS將全部資源信息存儲在mysql的數據庫裏,經過資源管理服務器rcserver進行統一管理。
(十四)內存做爲統一存儲實實踐
對微博之類的社交類,基礎內存作信息同步的三種模式:
拉模式:查詢此用戶關注的人,而後從這些人中查全部的微博。缺點:是關注的人多時數據大,長時間響應不了。
推模式:爲每一個收聽者創建一個隊列,用戶發了微博後向收聽者隊列插入數據。缺點:大V粉絲多,數據量太大。
內存模式:只更新內存中的收聽用戶隊列,當非內存中的收聽用戶上來時,在內存中利用拉模式構建收聽隊列。
把緩存看成具備必定邏輯結構的存儲體系,注意利用數據填充工具填充新服務器中的緩存數據。
(十五)數據庫優化
優化步驟:設計層 sql調優 內存IO層面 操做系統優化
儘可能不建索引,實在要建,就建複合壓縮索引
緩存sql語句執行計劃
(十六)京東商城網站架構演變
三個發展時代:
1:asp連db
2:靜態網頁放在cdn中配合動態交易系統(購物車、訂單中心)具體以下: cdn--->web應用 ---> 讀取靜態文件(用生成器生成)
還有幾點:將促銷系統拆分出來,拆分庫存邏輯,db複製
3:
交易系統:前面的負載均衡 ---> web應用 ---> 業務服務層 ---> 基礎服務層
1.核心系統全面服務化,服務框架的基本三功能:路由,fileover機制,服務分組
2.數據訪問分庫分表
3.緩存
大流量下的四步:異步化 ---> 限流 ---> 分流 ---> 降級
(十七)新浪視頻後臺架構變遷
視頻點播CDN:
每一個squid將io、鏈接數等狀態報告給數據中心,播放接口根據統計信息將用戶引導到離他近且狀態良好的節點上:
視頻直播:
 
視頻存儲:
 
 
 
 
 
 
 



相關文章
相關標籤/搜索