Apache Hudi重磅特性解讀之全局索引

1. 摘要 Hudi表允許多種類型操作,包括非常常用的upsert,當然爲支持upsert,Hudi依賴索引機制來定位記錄在哪些文件中。 當前,Hudi支持分區和非分區的數據集。分區數據集是將一組文件(數據)放在稱爲分區的桶中的數據集。一個Hudi數據集可能由N個分區和M個文件組成,這種組織結構也非常方便hive/presto/spark等引擎根據分區字段過濾以返回有限的數據量。而分區的值絕大多數
相關文章
相關標籤/搜索