AWS 數據分析服務(十)
Amazon Kinesis
概念
- 處理AWS上大量流數據的數據平臺
- Kinesis Streams 用於蒐集數據,Client Library 用於分析後的展現
- 構建用於處理或分析流數據的自定義應用程序
- 能夠支持從數十萬中來源捕獲和存儲TB級的數據,如網站點擊流、財務交易、媒體饋送、IT日誌等
- 使用IAM限制用戶和角色對Kinesis的訪問,使用角色的臨時安全憑證能夠提升安全性
- Kiesis只能使用SSL加密進行訪問
Kinesis組件
Kinesis Data Firehose
- 加載大量流數據到AWS服務中
- 數據默認被存儲在S3中,從S3還能夠再被進一步轉存到Redshift
- 數據也能夠被寫入到ElaticSearch中,而且同時備份到S3
Kinesis Data Streams:
- 自定義構建應用程序,實時分析流數據
- 利用AWS開發工具包,能夠實現數據在流中移動時仍然能被處理,從而接近實時
- 爲了接近實時,處理的複雜度一般較輕
- 建立者 Producer 持續將數據推送進Data Streams
- 數據在DataStream 由一組組分片(Shards)組成,每一個分片就是一條記錄,經過不斷分片實現幾乎無限的擴展能力
- 使用者 Comsumer 會實時對Data Steams的內容進行處理,而且將結果推送到不一樣的AWS服務
- 數據在Stream中是臨時的,默認存儲24小時,最大能夠設置爲7天
![AWS 數據分析服務(十)](http://static.javashuo.com/static/loading.gif)
Kinesis Data Analytics
Kinesis Video Streams
適用場景
Elastic MapReduce ( EMR)
概念
- 提供徹底託管的按需 Hadoop 框架
- 啓動EMR集羣的必選項
- 集羣節點的實例類型
- 集羣中的節點數量
- 但願運行的Hadoop版本
- Hadoop集羣選擇存儲類型相當重要,主要因素是集羣是持久的仍是瞬態的
- 須要持續運行並分析數據的集羣是持久集羣
- 按需啓動並在完成後當即中止的集羣爲瞬時集羣
- 默認不限制EMR集羣數量,但限制用於EMR節點總數爲20個,可申請擴展
- 能夠從S3以及其餘任何位置攝取數據
- Hadoop 日誌文件默認存儲在S3中,且不支持壓縮
- EMR支持競價實例
- EMR須要在一個可用區部署,不支持跨可用區部署,一般建議選擇數據所在的區域
- 集羣啓動一般在15分鐘內能夠開始進行數據處理
- EMR容許使用磁性、SSD和 PIOPS SSD三種EBS卷。
- 適用場景
文件系統
HDFS
- Hadoop標準文件系統
- 全部數據都在多個實例中被複制保證持久性
- HDFS能夠利用EBS存儲確保在關閉集羣時不丟失數據
- 很是適合於持久的集羣
EMRFS
- HDFS在AWS S3上的實現,將數據保存在S3中
- 可使用全部Hadoop生態的工具系統
- 很是適合於瞬時集羣
EMR NoteBooks
- EMR Notebooks 提供基於 Jupyter Notebook 的託管環境,可供數據科學家、分析員和開發人員準備數據並使其可視化、與同伴協做、構建應用程序,並使用 EMR 羣集執行交互分析。
- 您可使用 EMR Notebooks 構建 Apache Spark 應用程序,而且垂手可得地在 EMR 羣集上運行交互查詢。多個用戶能夠直接從控制檯建立無服務器筆記本、將其掛載到現有的共享 EMR 羣集,或直接從控制檯提供至少 1 個節點的並當即開始使用 Spark 進行實驗。
安全設置
- EMR默認將設置兩個EC2安全組: 主節點和從屬節點
- 主安全組
- 定義一個端口用於與服務的通訊
- 打開的SSH端口,容許啓動時指定的SSH密鑰進入實例
- 默認不容許被外部實例訪問,但可設置
- 從屬安全組
- 默認使用SSL向S3傳送數據
- 能夠支持對集羣進行標記,最多10個標記,但不支持基於標記的IAM許可。
- 使用IAM權限和角色控制對EMR的訪問和控制
- 能夠設置容許非Hadoop用戶將做業提交至集羣的權限
- 能夠將EMR放入到私有VPC中實現額外的保護
AWS Data Pipeline
概念
- 實如今指定時間間隔,在AWS資源和本地數據之間可靠地處理和移動數據
- 您能夠快速輕鬆地部署管道,無需分心管理平常數據操做,從而讓您可以集中精力從該數據獲取所需的信息。您只需爲您的數據管道指定所需數據源、時間表和處理活動便可。
- 與SWF相比,Data Pipeline 專門設計用於簡化大多數數據驅動工做流程中常見的特定步驟。例如:在輸入數據符合特定準備就緒標準後執行活動,輕鬆在不一樣數據存儲之間複製數據,以及調度連接的轉換。這種高度具體的側重點意味着 Data Pipeline 工做流定義能夠快速建立,而且無需代碼或編程知識。
- 按期訪問存儲數據,並對數據進行大規模處理,而且將結果轉換爲AWS服務
![AWS 數據分析服務(十)](http://static.javashuo.com/static/loading.gif)
- 利用Pipeline的定義安排和運行任務,能夠每15分鐘,天天,每週運行等
- 數據節點是pipeline流水線讀取和寫入數據的位置,能夠是S3,MySQL,Redshift等AWS或本地存儲
- Pipeline一般須要配合其餘服務執行預約義的任務,如EMR,EC2等,並在執行完成後自動關閉該服務
- Pipeline在編排的過程支持條件語句
- 若某項活動失敗,默認會不斷重試,因此須要配置限制重試次數或未成功時採起的行動
- 每一個帳戶默認支持100個管道,單一管道中能夠擁有100個對象,能夠申請擴展
屬性
- 管道
- 即 AWS Data Pipeline 資源,其中包含由執行業務邏輯所需的數據源、目的地和預約義或自定義數據處理活動所組成的關聯數據鏈的定義。
- 數據節點
- 數據節點表明您的業務數據。例如,數據節點能夠表示特定的 Amazon S3 路徑。AWS Data Pipeline 支持表達式語言,使其更容易引用常態生成的數據。
- 活動
- 是 AWS Data Pipeline 表明您啓動的操做,它是管道的一部分。示例活動包括 EMR 或 Hive 做業、複製、SQL 查詢或命令行腳本。
- 前提條件
- 前提條件是指成熟度檢查,可選擇性地將其關聯到數據源或活動。若是數據源具備前提條件檢查,那麼必須先成功完成檢查,而後才能啓動任何須要用到該數據源的活動。若是活動具備前提條件,那麼必須先成功完成檢查,而後才能運行活動。
- 時間表
- 定義管道活動運行的時間和服務預計的可以使用數據的頻率。能夠選擇時間表結束日期,在此時間後,AWS Data Pipeline 服務不執行任何活動。
- 當您將時間表與活動關聯起來後,活動就會按時間表運行。當您將時間表與數據源關聯起來,就表示您告訴 AWS Data Pipeline 服務,您指望數據會按照該時間表更新。
適用場景
- 很是適用於常規批處理的ETL流程,而不是連續數據流
Amazon Elastic Transcoder
- 一種在線媒體轉碼的工具
- 將視頻從源格式轉換到其餘的格式和分辨率,以便在手機、平板、PC等設備上播放
- 通常來講,將須要轉碼的媒體文件放在AWS S3的存儲桶上,建立相應的管道和任務將文件轉碼爲特定的格式,最後將文件輸出到另外一個S3的存儲桶上面去。
- 也可使用一些預設的模板來轉換媒體格式。
- 能夠配合Lambda函數,在有新的文件上傳到S3後觸發函數代碼,執行Elastic Transcoder並自動進行媒體文件的轉碼。
![AWS 數據分析服務(十)](http://static.javashuo.com/static/loading.gif)
Amazon Athena
- Amazon Athena 是一種交互式查詢服務,讓您可以輕鬆使用標準 SQL 分析 Amazon S3 中的數據。Athena 沒有服務器,所以您無需管理任何基礎設施,且只需爲您運行的查詢付費。
- Athena 簡單易用。只需指向您存儲在 Amazon S3 中的數據,定義架構並使用標準 SQL 開始查詢就可在數秒內獲取最多的結果。
- 使用 Athena,無需執行復雜的 ETL 做業來爲數據分析作準備。這樣一來,具有 SQL 技能的任何人均可以輕鬆快速地分析大規模數據集。
- 支持的數據格式包括 JSON,Apache Parquet, Apache ORC
Amazon Elasticsearch Service
- Amazon Elasticsearch Service 是一項徹底託管的服務,方便您部署、保護和運行大量 Elasticsearch 操做,且不用停機。
- 該服務提供開源 Elasticsearch API、受託管的 Kibana 以及與 Logstash 和其餘 AWS 服務的集成,支持您安全獲取任何來源的數據,並開展實時搜索、分析和可視化。
- 使用 Amazon Elasticsearch Service 時,您只需按實際用量付費,沒有預付成本或使用要求。有了 Amazon Elasticsearch Service,您無需承擔運營開銷,即可得到所需的 ELK 堆棧。
AWS X-Ray
- AWS X-Ray 能夠幫助開發人員分析與調試分佈式生產應用程序,例如使用微服務架構構建的應用程序。
- 藉助 X-Ray,您能夠了解應用程序及其底層服務的執行方式,從而識別和排查致使性能問題和錯誤的根本緣由。
- X-Ray 可在請求經過應用程序時提供請求的端到端視圖,並展現應用程序底層組件的映射。
- 您可使用 X-Ray 分析開發和生產中的應用程序,從簡單的三層應用程序到包含上千種服務的複雜微服務應用程序。
歡迎關注本站公眾號,獲取更多信息