產品 | TDH 4.6正式發佈

時間 2021-08-13

原文原文鏈接

過去十年間，全世界的數據量每兩年大約增長10倍，已經遠遠超過計算領域的摩爾定律，所以人們須要有更高效的方式來處理數據。在如此強烈的需求推進下，大數據技術發展突飛猛進。
做爲摩爾定律堅決的踐行者，星環科技一直致力於實現大數據技術領域的摩爾定律： 近日，星環科技正式發佈TDH 4.6版本，實現6個月內單位性能提高60%，併發布了一系列新產品組件，進一步下降了大數據技術從概念到落地的複雜度。

這次TDH 4.6發佈兩大特點組件：算法

SQL on Elastic Search：在海量數據中快速檢索到精確信息的利器；數據庫

Graphene：在超級複雜的關聯網絡中快速找到社區結構的圖計算產品。編程

除此之外，TDH衆多功能組件也都迎來了重大升級。安全

Transwarp Inceptor
性能提高
做爲TDH家族的兄長，Inceptor努力踐行着摩爾定律：單位計算資源的性能在6個月內提高了60%。同時，相同資源可以支持的數據量也有一樣比例的增加，這意味着在半年內，使用TDH的用戶能夠在不作硬件擴充的狀況下，只要升級至4.6版本，就可以多處理50%的業務量。下圖爲TDH最近三個版本在TPC-DS基準測試上的性能對比數據。

爲了有更好的分析性能，Inceptor 4.6開發了全新的Inter-SQL-Optimizer，能夠分析一個文件中多個業務SQL，並生成依賴圖，在此基礎上進一步對業務SQL優化，包括刪除未使用的字段、消除非有效的SQL等，並結合Cost Based Optimizer來提高性能。
圖計算
Inceptor 4.6另一個亮點是圖計算產品Graphene的正式推出。Graphene提供基於SQL的擴展語言進行圖計算編程，經過Inceptor引擎完成分佈式計算，能夠在海量數據中執行多達14種圖算法。 Holodesk再升級
爲了提供更好的檢索和分析性能，Inceptor 4.6正式推出了Holodesk V2，包含存儲層的一系列優化，更好的適配各類規格的SSD，並推出了全局索引，以及基於全局索引的各類優化。在咱們的基準測試中，Holodesk V2相對於V1的性能顯著提高，對於一些精確檢索類的業務SQL，查詢延時降至毫秒級。
數據字典
爲了更好的幫助用戶查看和管理元數據，Inceptor 4.6正式推出了數據字典。在數據字典中，用戶能夠經過基於SQL的方式來查詢各類元數據信息，從而更好的對數據進行監管，同時也能夠知足各類第三方工具的對接需求。
SQL支持
Inceptor 4.6在 SQL支持程度獲得進一步提高，包括正式支持SQL Sequence語法，全面兼容VARCHAR和CHAR數據類型，並經過方言控制與Oracle以及DB2保持一致行爲。
Inceptor 4.6新發布的功能提高用戶體驗，包括支持使用中文字符做表名或者字段名，更好的知足國內客戶的需求；規範化的報錯，快速定位問題並構建知識庫；PL/SQL支持在編譯期對SQL作語義檢查，幫助用戶更早的發現問題；支持持久化的UDF，用戶只要一次加載就能夠持續使用。 Transwarp Hyperbase
全新面貌交付，產品矩陣、運維支撐以及架構方面均有重大的提高。

首先，爲了更好的適應海量數據的檢索需求，Hyperbase 4.6正式發佈了SQL on Elastic Search功能，包含SQL Engine，ES-Drive組件以及Elastic Search 2.0。其中，SQL Engine主要用於解析SQL以及全文檢索的語法，並經過ES-Drive最終生成對Elastic Search的API調用。相比較於直接用ES API，SQL編程在便利性、可管理性以及性能上都有更好的優點。
以以下場景爲例，咱們能夠看到使用SQL作全文檢索的便利性。「查找出同時存在transwarp和outstand的文檔，且兩單詞間距不超過10個單詞的文本，而且要求transwarp必定出如今outstand以前。」SQL：網絡

select * from test001 where contains(content, 'NEAR((transwarp, outstand), 20)')

其次，Hyperbase拋棄了傳統的InputFormat/OutputFormat的方式來操做HBase，而是經過HyperDrive組件來使用HBase。SQL操做會被直接翻譯爲對HBase的RDD操做，最終直接體現爲HBase的API調用。使用這種全新的架構，大幅減小HBase原子操做的調用棧的複雜度，對HBase中錯誤的處理更方便。此外，Hyperbase增強了對集羣運維的支撐。咱們基於HTrace實現了一套RPC的監控工具，經過標準化的輸出日誌，快速定位；並對各個組件作關聯分析，更方便的甄別系統問題。同時，HBase提供Performance Metrics日誌收集、分析和展示框架，用戶可將自定義的Metrics收集起來，經過第三方工具作報表展示，從而掌握集羣的情況。 Transwarp Stream
StreamSQL在4.6版本中新增了多項重要功能，更有效的應對複雜的實時應用場景。新版本中支持動態流控，當任務出現積壓時，經過限制數據接收的速度來保證系統的穩定性；針對一些實時應用中可能出現過多的小文件問題，Stream經過Batch Flush模式進行規避。
Stream SQL支持Socket以及Kafka的數據源，此外因爲數據格式的多樣性，Stream SQL支持用戶自定義的Decoder，並容許使用自定義的Decoder來解析經過Socket進入的數據。
此外，Stream SQL在處理數據的亂序問題上也作了加強。當Kafka中某一個時間段內有亂序的數據時，Stream正常接收數據並對相關的數據作重排序來恢復正常的數據流。
Transwarp Manager
Manager 4.6新增了磁盤問題管理。當某一個硬盤出現問題後，用戶能夠很方便的讓全部的組件再也不使用該硬盤，無需屢次修改配置。新版本支持一鍵刪除節點，而且支持Transwarp Manager HA的自動化配置，Manager自己的穩定性獲得進一步完善。
爲了讓用戶更好的瞭解集羣情況，Transwarp Manager新增了報表頁面。用戶能夠經過選取感興趣的Metrics生成報表，經過對報表數據的閱讀來掌握集羣的運行情況。

在集羣運維和檢查方面，Manager增長了頁面版本的環境檢查工具，對當前系統的軟件環境、網絡情況等進行快速檢查，找出潛在的環境問題。下圖爲環境檢查工具在某個集羣上的綜合檢查報告。

Transwarp Guardian
Guardian 4.6新增了列級數據權限控制，支持設置特定列對特定用戶脫敏顯示；支持數據庫級別的權限管理，支持按數據庫批量賦予表的權限；能夠經過SQL設置Inceptor表對應HDFS文件的ACL以及用戶組；此外，在對Kafka的安全認證中，可使用IP或者Host name做爲Principal ，使用更靈活。
Transwarp Discover
從有效的數據中找出數據的價值是數據挖掘的主要使命，數據的質量對挖掘的效果有着很是大的影響，所以數據預處理通常是數據挖掘項目的首個重要任務。爲了讓用戶對數據預處理更容易，Discover 4.6 提供了一套新的預處理的方法，包括數據歸一化txNormalization和對異常數據的修改txReplacingData。
除了在預處理部分的提高外，Discover 4.6加強了分佈式算法和R算法的適配，能夠讓同一套代碼靈活的調用分佈式算法或者本地R算法。目前經常使用的一些算法如決策樹/ANN/SVD/PCA均可以在兩個模型之間切換。此外，Discover 4.6容許用戶將已實現的Spark算法加入Discover算法庫中，並能夠經過Discover Data Frame接口來調用，無需將代碼從新遷移。