Flink新內存模型

將Flink從1.7.2升級到1.10.0時出現各類內存溢出問題，Flink1.10提出了全新的內存模型，使用新版Flink理解新的內存模型是必須。對於老的flink咱們通常只需配置taskmanager.heap.size，對於standalone cluster來講這個配置只配置了堆內存，而堆外內存在taskmanager.sh中被配成了一個至關大的數。java

TM_MAX_OFFHEAP_SIZE="8388607T"
 export JVM_ARGS="${JVM_ARGS} -Xms${TM_HEAP_SIZE}M -Xmx${TM_HEAP_SIZE}M -XX:MaxDirectMemorySize=${TM_MAX_OFFHEAP_SIZE}"

而對於yarn cluster來講這個配置項表明的又是整個container的內存。所以，整理並提出一個新的內存規範的確是有必要的。shell

TaskManager

TaskManager總內存有2種配置方式total process memory和total flink memory，其中total process memory = total flink memory + jvm運行自身佔用內存，例如metaspace。其中total process memory適合在容器環境下使用，對應配置項爲taskmanager.memory.process.size，而total flink memory適合在standalone下使用，對應配置項爲taskmanager.memory.flink.size。後端

total flink memory = heap + off-heap。heap被稱爲堆內存，而off-heap在這裏指不是堆內存的內存，這裏不稱爲堆外或者非堆，是爲了和這些模糊的概念劃清界限。緩存

heap = task heap + framework heap，即用戶代碼使用的堆內存和flink框架自己使用的堆內存。這部份內存對應的jvm參數最終爲-Xmx和-Xms，所以實際上task heap和framework heap是沒有隔離的。框架

off-heap=managed memory + direct memory。managed memory是由Flink用Unsafe類建立的，不受JVM管控。流job中這部份內存可用於狀態後端，例如rocksdb的內存；批job這部份內存可用於排序，緩存中間結果等。managed memory也就是slot均分的那個內存（slot的內存隔離其實只有這一部分而已），所以是按slot隔離的。direct memory就是咱們日常所說的堆外內存：java.nio.DirectByteBuffer，這部份內存也由Unsafe類建立的，照理也不受JVM控制，可是在JDK代碼裏使用了-XX:MaxDirectMemorySize對其進行了大小上的管控。java.nio.Bits#tryReserveMemory中限制了大小。direct memory對應的JVM參數爲-XX:MaxDirectMemorySize。jvm

private static boolean tryReserveMemory(long size, int cap) {

    // -XX:MaxDirectMemorySize limits the total capacity rather than the
    // actual memory usage, which will differ when buffers are page
    // aligned.
    long totalCap;
    while (cap <= maxMemory - (totalCap = totalCapacity.get())) {
        if (totalCapacity.compareAndSet(totalCap, totalCap + cap)) {
            reservedMemory.addAndGet(size);
            count.incrementAndGet();
            return true;
        }
    }

    return false;
}

direct memory = framework off-heap + task off-heap+ network。其中network會在初始化時分配，能夠視爲和前2部分是隔離的，而前2部分之間是沒有隔離的。spa

taskmanager.memory.jvm-metaspace.size是用來設置metaspace的，對應的JVM參數是-XX:MaxMetaspaceSize。Flink1.10新增了cluster.evenly-spread-out-slots配置，開啓後job的slot會在TaskManager上均分，對於standalone cluster來講每一個TaskManager須要加載的job就會變多，類加載變多須要更大的metaspace空間。 TaskManager內存模型以下圖： code

JobManager

Flink1.11又提出了新的JobManager內存模型來規範JobManager的設置。JobManager的內存設置相對於TaskManager簡單的多，在理解了TaskManager內存模型後在看JobManager的內存模型就簡單的多了。排序

JobManager內存模型以下圖：內存