Flink新內存模型

Flink新內存模型

將Flink從1.7.2升級到1.10.0時出現各類內存溢出問題,Flink1.10提出了全新的內存模型,使用新版Flink理解新的內存模型是必須。對於老的flink咱們通常只需配置taskmanager.heap.size,對於standalone cluster來講這個配置只配置了堆內存,而堆外內存在taskmanager.sh中被配成了一個至關大的數。java

TM_MAX_OFFHEAP_SIZE="8388607T"
 export JVM_ARGS="${JVM_ARGS} -Xms${TM_HEAP_SIZE}M -Xmx${TM_HEAP_SIZE}M -XX:MaxDirectMemorySize=${TM_MAX_OFFHEAP_SIZE}"

而對於yarn cluster來講這個配置項表明的又是整個container的內存。所以,整理並提出一個新的內存規範的確是有必要的。shell

TaskManager

TaskManager總內存有2種配置方式total process memorytotal flink memory,其中total process memory = total flink memory + jvm運行自身佔用內存,例如metaspace。其中total process memory適合在容器環境下使用,對應配置項爲taskmanager.memory.process.size,而total flink memory適合在standalone下使用,對應配置項爲taskmanager.memory.flink.size。後端

total flink memory = heap + off-heap。heap被稱爲堆內存,而off-heap在這裏指不是堆內存的內存,這裏不稱爲堆外或者非堆,是爲了和這些模糊的概念劃清界限。緩存

heap = task heap + framework heap,即用戶代碼使用的堆內存和flink框架自己使用的堆內存。這部份內存對應的jvm參數最終爲-Xmx和-Xms,所以實際上task heap和framework heap是沒有隔離的。框架

off-heap=managed memory + direct memory。managed memory是由Flink用Unsafe類建立的,不受JVM管控。流job中這部份內存可用於狀態後端,例如rocksdb的內存;批job這部份內存可用於排序,緩存中間結果等。managed memory也就是slot均分的那個內存(slot的內存隔離其實只有這一部分而已),所以是按slot隔離的。direct memory就是咱們日常所說的堆外內存:java.nio.DirectByteBuffer,這部份內存也由Unsafe類建立的,照理也不受JVM控制,可是在JDK代碼裏使用了-XX:MaxDirectMemorySize對其進行了大小上的管控。java.nio.Bits#tryReserveMemory中限制了大小。direct memory對應的JVM參數爲-XX:MaxDirectMemorySizejvm

private static boolean tryReserveMemory(long size, int cap) {

    // -XX:MaxDirectMemorySize limits the total capacity rather than the
    // actual memory usage, which will differ when buffers are page
    // aligned.
    long totalCap;
    while (cap <= maxMemory - (totalCap = totalCapacity.get())) {
        if (totalCapacity.compareAndSet(totalCap, totalCap + cap)) {
            reservedMemory.addAndGet(size);
            count.incrementAndGet();
            return true;
        }
    }

    return false;
}

direct memory = framework off-heap + task off-heap+ network。其中network會在初始化時分配,能夠視爲和前2部分是隔離的,而前2部分之間是沒有隔離的。spa

taskmanager.memory.jvm-metaspace.size是用來設置metaspace的,對應的JVM參數是-XX:MaxMetaspaceSize。Flink1.10新增了cluster.evenly-spread-out-slots配置,開啓後job的slot會在TaskManager上均分,對於standalone cluster來講每一個TaskManager須要加載的job就會變多,類加載變多須要更大的metaspace空間。 TaskManager內存模型以下圖: TaskManager內存模型code

JobManager

Flink1.11又提出了新的JobManager內存模型來規範JobManager的設置。JobManager的內存設置相對於TaskManager簡單的多,在理解了TaskManager內存模型後在看JobManager的內存模型就簡單的多了。排序

JobManager內存模型以下圖: JobManager內存模型內存

相關文章
相關標籤/搜索