產品 | TDH 4.6正式發佈

過去十年間,全世界的數據量每兩年大約增長10倍,已經遠遠超過計算領域的摩爾定律,所以人們須要有更高效的方式來處理數據。在如此強烈的需求推進下,大數據技術發展突飛猛進。
做爲摩爾定律堅決的踐行者,星環科技一直致力於實現大數據技術領域的摩爾定律: 近日,星環科技正式發佈TDH 4.6版本,實現6個月內單位性能提高60%,併發布了一系列新產品組件,進一步下降了大數據技術從概念到落地的複雜度。

這次TDH 4.6發佈兩大特點組件:算法

SQL on Elastic Search:在海量數據中快速檢索到精確信息的利器;數據庫

Graphene:在超級複雜的關聯網絡中快速找到社區結構的圖計算產品。編程

除此之外,TDH衆多功能組件也都迎來了重大升級。安全

 


Transwarp Inceptor
性能提高
做爲TDH家族的兄長,Inceptor努力踐行着摩爾定律:單位計算資源的性能在6個月內提高了60%。同時,相同資源可以支持的數據量也有一樣比例的增加,這意味着在半年內,使用TDH的用戶能夠在不作硬件擴充的狀況下,只要升級至4.6版本,就可以多處理50%的業務量。下圖爲TDH最近三個版本在TPC-DS基準測試上的性能對比數據。
圖片
爲了有更好的分析性能,Inceptor 4.6開發了全新的Inter-SQL-Optimizer,能夠分析一個文件中多個業務SQL,並生成依賴圖,在此基礎上進一步對業務SQL優化,包括刪除未使用的字段、消除非有效的SQL等,並結合Cost Based Optimizer來提高性能。
圖計算
Inceptor 4.6另一個亮點是圖計算產品Graphene的正式推出。Graphene提供基於SQL的擴展語言進行圖計算編程,經過Inceptor引擎完成分佈式計算,能夠在海量數據中執行多達14種圖算法。 Holodesk再升級
爲了提供更好的檢索和分析性能,Inceptor 4.6正式推出了Holodesk V2,包含存儲層的一系列優化,更好的適配各類規格的SSD,並推出了全局索引,以及基於全局索引的各類優化。在咱們的基準測試中,Holodesk V2相對於V1的性能顯著提高,對於一些精確檢索類的業務SQL,查詢延時降至毫秒級。
數據字典
爲了更好的幫助用戶查看和管理元數據,Inceptor 4.6正式推出了數據字典。在數據字典中,用戶能夠經過基於SQL的方式來查詢各類元數據信息,從而更好的對數據進行監管,同時也能夠知足各類第三方工具的對接需求。
SQL支持
Inceptor 4.6在 SQL支持程度獲得進一步提高,包括正式支持SQL Sequence語法,全面兼容VARCHAR和CHAR數據類型,並經過方言控制與Oracle以及DB2保持一致行爲。
Inceptor 4.6新發布的功能提高用戶體驗,包括支持使用中文字符做表名或者字段名,更好的知足國內客戶的需求;規範化的報錯,快速定位問題並構建知識庫;PL/SQL支持在編譯期對SQL作語義檢查,幫助用戶更早的發現問題;支持持久化的UDF,用戶只要一次加載就能夠持續使用。 Transwarp Hyperbase
全新面貌交付,產品矩陣、運維支撐以及架構方面均有重大的提高。


首先,爲了更好的適應海量數據的檢索需求,Hyperbase 4.6正式發佈了SQL on Elastic Search功能,包含SQL Engine,ES-Drive組件以及Elastic Search 2.0。其中,SQL Engine主要用於解析SQL以及全文檢索的語法,並經過ES-Drive最終生成對Elastic Search的API調用。相比較於直接用ES API,SQL編程在便利性、可管理性以及性能上都有更好的優點。
以以下場景爲例,咱們能夠看到使用SQL作全文檢索的便利性。「查找出同時存在transwarp和outstand的文檔,且兩單詞間距不超過10個單詞的文本,而且要求transwarp必定出如今outstand以前。」SQL:網絡

select * from test001 where contains(content, 'NEAR((transwarp, outstand), 20)')

其次,Hyperbase拋棄了傳統的InputFormat/OutputFormat的方式來操做HBase,而是經過HyperDrive組件來使用HBase。SQL操做會被直接翻譯爲對HBase的RDD操做,最終直接體現爲HBase的API調用。使用這種全新的架構,大幅減小HBase原子操做的調用棧的複雜度,對HBase中錯誤的處理更方便。  此外,Hyperbase增強了對集羣運維的支撐。咱們基於HTrace實現了一套RPC的監控工具,經過標準化的輸出日誌,快速定位;並對各個組件作關聯分析,更方便的甄別系統問題。同時,HBase提供Performance Metrics日誌收集、分析和展示框架,用戶可將自定義的Metrics收集起來,經過第三方工具作報表展示,從而掌握集羣的情況。  Transwarp Stream
StreamSQL在4.6版本中新增了多項重要功能,更有效的應對複雜的實時應用場景。新版本中支持動態流控,當任務出現積壓時,經過限制數據接收的速度來保證系統的穩定性;針對一些實時應用中可能出現過多的小文件問題,Stream經過Batch Flush模式進行規避。
Stream SQL支持Socket以及Kafka的 數據源,此外因爲數據格式的多樣性,Stream SQL支持用戶自定義的Decoder,並容許使用自定義的Decoder來解析經過Socket進入的數據。
此外,Stream SQL在處理數據的亂序問題上也作了加強。當Kafka中某一個時間段內有亂序的數據時,Stream正常接收數據並對相關的數據作重排序來恢復正常的數據流。
Transwarp Manager
Manager 4.6新增了磁盤問題管理。當某一個硬盤出現問題後,用戶能夠很方便的讓全部的組件再也不使用該硬盤,無需屢次修改配置。新版本支持一鍵刪除節點,而且支持Transwarp Manager HA的自動化配置,Manager自己的穩定性獲得進一步完善。
爲了讓用戶更好的瞭解集羣情況,Transwarp Manager新增了報表頁面。用戶能夠經過選取感興趣的Metrics生成報表,經過對報表數據的閱讀來掌握集羣的運行情況。
圖片
在集羣運維和檢查方面,Manager增長了頁面版本的環境檢查工具,對當前系統的軟件環境、網絡情況等進行快速檢查,找出潛在的環境問題。下圖爲環境檢查工具在某個集羣上的綜合檢查報告。
圖片 Transwarp Guardian
Guardian 4.6新增了列級數據權限控制,支持設置特定列對特定用戶脫敏顯示; 支持數據庫級別的權限管理,支持按數據庫批量賦予表的權限;能夠經過SQL設置Inceptor表對應HDFS文件的ACL以及用戶組;此外,在對Kafka的安全認證中,可使用IP或者Host name做爲Principal ,使用更靈活。
Transwarp Discover
從有效的數據中找出數據的價值是數據挖掘的主要使命,數據的質量對挖掘的效果有着很是大的影響,所以數據預處理通常是數據挖掘項目的首個重要任務。爲了讓用戶對數據預處理更容易,Discover 4.6 提供了一套新的預處理的方法,包括數據歸一化txNormalization和對異常數據的修改txReplacingData。
除了在預處理部分的提高外,Discover 4.6加強了分佈式算法和R算法的適配, 能夠讓同一套代碼靈活的調用分佈式算法或者本地R算法。目前經常使用的一些算法如決策樹/ANN/SVD/PCA均可以在兩個模型之間切換。 此外,Discover 4.6容許用戶將已實現的Spark算法加入Discover算法庫中,並能夠經過Discover Data Frame接口來調用,無需將代碼從新遷移。
相關文章
相關標籤/搜索