淘寶在數據存儲和處理領域在國內互聯網公司中一直保持比較靠前的位置,並且因爲電子商務領域獨特的應用場景,淘寶在數據實時性和大規模計算及挖掘方面一直在國內保持着領先,所以積累了不少的實踐的經驗和產品。node
taobao-pamirs- schedule是一個基於分佈式環境的多線程任務處理框架。目的是讓一種批量任務或者不斷變化的任務,可以被動態的分配到多個主機的JVM,不一樣的線程 組中並執行。全部的任務可以被不重複,不遺漏的快速處理。它將須要執行的任務抽象成一致的任務模型,進行統一的管理和監控。運用schedule,任務能 夠比較均勻的分發到多臺機器上進行處理,而且能夠動態的進行水平擴展。mysql
一個輕量級的腳本引擎,做爲一個嵌入式規則引擎在業務系統中使用。讓業務規則定義簡便而不失靈活。讓業務人員就能夠定義業務規則。 支持標準的JAVA語法,還能夠支持自定義操做符號、操做符號重載、函數定義、宏定義、數據延遲加載等。nginx
Uic是個海量數據的高穩定高併發高響應高可靠高一致性的系統。海量數據:如今整個用戶中心的註冊用戶數接近6億,加上地址,支付寶綁定數據,接近 20億。如今經過分庫分表存在了16個庫1024張表裏面。高穩定,高可靠:用戶中心是淘寶最爲核心的系統之一,一個完整的交易流程須要訪問UIC高達幾 十次,因此UIC的穩定是整個淘寶的重中之重,咱們爲了UIC的穩定作了不少容災的方案,包括多機房的備份,緩存的容災,mysql的容災,流量的控制等 等,能夠說UIC的核心就是各類容災體系和在各類極端狀況的下解決措施高併發,高響應:天天訪問UIC的數據在200億左右,咱們使用了tair作爲緩 存,使用protobuf序列化, 儘量的提升緩存的命中率,如今用戶數據的命中率在99%。web
海量數據實時計算框架。基於搜索技術對海量明細數據作實時計算。目前主要對交易數據作分析,應用於數據魔方中 特色:算法
Andes是基於HBase的任意數據長時間維度高性能數據查詢集羣系統。解放數據魔方在查詢時間段上的限制。 採用key-list存儲方式,對於任什麼時候間長度的查詢均僅需一次數據庫訪問便可完成,規避查詢時間對於查詢性能的影響。sql
用戶搜索query數據分析系統。應用於淘詞中,提供實時匹配用戶輸入query作關鍵query、關鍵熱詞的查詢計算。數據庫
MyFOX是一個針對海量統計數據設計的高性能分佈式MySQL集羣中間層,承擔着數據魔方90%以上的數據存儲和查詢需求。MyFOX可以提供: • 1) 「表字段+數據行數」相組合的數據切分規則; • 2) 徹底透明的標準SQL查詢接口 • 3) 一樣的SQL語句,在10億數據量下,與1000萬數據量時徹底相同的查詢性能 • 4) 每份數據跨機房冗餘,單機故障時受影響分片在集羣內迅速自我複製; • 5) 冷熱數據分離;實時監控查詢頻繁的數據分片,必要時在集羣內進行擴充性的自動複製。編程
Glider是創建在MyFOX、Prom以及Keykeys等異構數據源之上的統一的數據中間層,是數據魔方、淘寶指數以及開放API等數據產品 的統一的數據查詢出口。 Glider對各個異構數據源進行高度抽象,並在此基礎上進行通用的JOIN、UNION、排序、去重、表達式求值等計算。這一複雜過程僅經過簡單的配置 便可實現。 Glider目前承擔着單機天天超過2000萬的數據查詢請求,8月25日的平均響應時間126毫秒。緩存
Node.js是一個基於V8引擎的服務器端JavaScript運行環境,提供非阻塞、事件驅動、異步等特性。對於高負載應用服務場景,以及最大 化利用服務器硬件資源具備很大實用價值。咱們是國內最先將Node.js引入互聯網商業開發領域的團隊,已應用此技術開發了 taojob(http://taojob.tbdata.org)、數據魔方俱樂部等一系列Web產品。目前正在使用Node.js對Myfox、 Glider進行升級改造,並將其應用於「淘寶指數」的產品開發。服務器
數據可視化是關於使用圖形化的手段,清晰有效地傳達與溝通訊息的研究。淘寶數據可視化實驗室自2010年成立以來,使用最新的數據可視化技術對淘寶 海量商業數據進行研究分析,經過一系列可視化應用向外界展現淘寶數據蘊藏的價值,展示數據之美,爲用戶提供了了解數據、分析數據的全新的方式。
經過對最新體感交互技術的研究,咱們將在數據可視化及數據產品中爲用戶提供革命性的交互體驗,幫助用戶更方便的使用互聯網數據產品。
基於HADOOP-MAHOUT分佈式機器學習技術、面向個性化主題的數據處理平臺(PDP)核心應用之一;應用架構爲offline計 算+online兩層推薦引擎;數據分爲採集中心、算法中心、發佈中心、評價中心。 淘寶網消費者購物模式挖掘 淘寶網消費者購物模式挖掘是淘寶指數項目中的一個子項目,經過分析消費者歷史購物行爲,挖掘和識別消費的購物模式和購物心理。項目中咱們採用購物類目關聯 圖分析的手段,經過圖論技術來實現消費者類似購物模式的挖掘。其中類目類似鏈接圖構造,類似購物團簇發掘是其中的核心點。
商品評論情感分析打分系統是基於淘寶網海量商品評論數據,採用關聯規則挖掘的方法,構建高頻特徵詞;經過語義分析、消費者情感趨向分析,並結合評論者本人的評論習慣(評論者得分)給出商品評論分,以此得出該商品的最終評論打分。該得分反映商品對於購買者的滿意程度。
通用的流數據實時計算系統,以實時數據產出的低延遲、高吞吐和複用性爲初衷和目標,採用actor模型構建分佈式流數據計算框架(底層基於 akka),功能易擴展、部分容錯、數據和狀態可監控。 銀河具備處理實時流數據(如TimeTunnel收集的實時數據)和靜態數據(如本地文件、HDFS文件)的能力,可以提供靈活的實時數據輸出,並提供自 定義的數據輸出接口以便擴展實時計算能力。 銀河目前主要是爲魔方提供實時的交易、瀏覽和搜索日誌等數據的實時計算和分析。
真正基於雲平臺的數據體系及數據處理平臺,秉承透明、標準、隱私保護的設計理念,實現了包括主題研究、挖掘算法、實時計算數據組合的開放式數據體系。
數據倉庫應用與分佈式計算的經典結合,在雲梯1上實現了數據高達120:1的壓縮比,迄今爲止已有30餘種業務數據完成應用,累積節省存儲達15PB,此外,在提升數據訪問效率,下降計算消耗方面也有十分顯著的效果。
用於實時同步數據庫數據到HDFS的產品,經過解析各種RDBMS的log文件來提取相應的數據庫動做,進而達到數據庫到HADOOP的數據同步,供相關部門提取增量數據,經過dbsync,可以瞭解並獲得全部數據的任意變化軌跡。
天網調度系統(SKYNET)做爲淘寶數據平臺的核心調度系統,承載着淘寶數據跨部門/數十條業務線/超過一萬個做業的調度和運維工做,具備圖形化、跨平臺、自動部署、線上運維、智能容災的特色,是淘寶數據平臺的中樞系統。
數據開發服務平臺整合IDE、調度、監控、告警、元數據、成本優化、權限控制、審計、用戶管理能功能。平臺將複雜的技術細節屏蔽在平臺內部,爲使用者提供簡單便捷的用戶體驗,使開發者可以專一於商業領域的需求,下降用戶在雲梯上進行數據應用開發和數據分析的門檻。
海量數據的實時處理能力:SuperMario,基於erlang語言和zookeeper模塊開發的高性能數據流處理框架,使用訂閱者模式構建流節點間的流關係,支持高性能的數據流式實時處理。
以更低的成本支持更高的併發處理能力:Openresty,基於Nginx構建的量子web服務框架,讓web server成爲量子網站核心容器,經過nginx_lua_mod的擴展,可以高效、便捷的開發高性能web服務。
更高效、敏捷的數據開發能力:LzSQL,基於perl::parser模塊構建的量子數據庫小語言,封裝了數據庫分庫、分表,以及異構數據實時融合(數據庫和第三方引擎)的功能,便於進行快速的REST數據接口開發。