小師妹學JVM之:cache line對代碼性能的影響

時間 2020-07-10

標籤師妹 jvm cache line 代碼性能影響欄目 Java 简体版

原文原文鏈接

簡介

讀萬卷書不如行萬里路，講了這麼多assembly和JVM的原理與優化，今天咱們來點不同的實戰。探索一下怎麼使用assembly來理解咱們以前不能理解的問題。java

一個奇怪的現象

小師妹:F師兄，以前你講了那麼多JVM中JIT在編譯中的性能優化，講真的，在工做中咱們真的須要知道這些東西嗎？知道這些東西對咱們的工做有什麼好處嗎？git

um...這個問題問得好，知道了JIT的編譯原理和優化方向，咱們的確能夠在寫代碼的時候稍微注意一下，寫出性能更加優秀的代碼，可是這只是微觀上了。程序員

若是將代碼上升到企業級應用，一個硬件的提高，一個緩存的加入或者一種架構的改變均可能比小小的代碼優化要有用得多。github

就像是，若是咱們的項目遇到了性能問題，咱們第一反應是去找架構上面有沒有什麼缺陷，有沒有什麼優化點，不多或者說基本上不會去深刻到代碼層面，看你的這個代碼到底有沒有可優化空間。算法

第一，只要代碼的業務邏輯不差，運行起來速度也不會太慢。spring

第二，代碼的優化帶來的收益實在過小了，而工做量又很是龐大。緩存

因此說，對於這種相似於雞肋的優化，真的有必要存在嗎？性能優化

其實這和我學習物理化學數學知識是同樣的，你學了那麼多知識，其實在平常生活中真的用不到。可是爲何要學習呢？架構

我以爲有兩個緣由，第一是讓你對這個世界有更加本質的認識，知道這個世界是怎麼運行的。第二是鍛鍊本身的思惟習慣，學會解決問題的方法。jvm

就想算法，如今寫個程序真的須要用到算法嗎？不見得，可是算法真的很重要，由於它能夠影響你的思惟習慣。

因此，瞭解JVM的原理，甚至是Assembly的使用，並非要你用他們來讓你的代碼優化的如何好，而是讓你知道，哦，原來代碼是這樣工做的。在將來的某一個，或許我就可能用到。

好了，言歸正傳。今天給小師妹介紹一個很奇怪的例子：

private static int[] array = new int[64 * 1024 * 1024];

    @Benchmark
    public void test1() {
        int length = array.length;
        for (int i = 0; i < length; i=i+1)
            array[i] ++;
    }
    @Benchmark
    public void test2() {
        int length = array.length;
        for (int i = 0; i < length; i=i+2)
            array[i] ++;
    }

小師妹，上面的例子，你以爲哪個運行的更快呢？

小師妹：固然是第二個啦，第二個每次加2，遍歷的次數更少，確定執行得更快。

好，咱們先持保留意見。

第二個例子，上面咱們是分別+1和+2，若是後面再繼續+3，+4，一直加到128，你以爲運行時間是怎麼樣的呢？

小師妹：確定是線性減小的。

好，兩個問題問完了，接下來讓咱們來揭曉答案吧。

更多精彩內容且看：

兩個問題的答案

咱們再次使用JMH來測試咱們的代碼。代碼很長，這裏就不列出來了，有興趣的朋友能夠到本文下面的代碼連接下載運行代碼。

咱們直接上運行結果：

Benchmark               Mode  Cnt   Score   Error  Units
CachelineUsage.test1    avgt    5  27.499 ± 4.538  ms/op
CachelineUsage.test2    avgt    5  31.062 ± 1.697  ms/op
CachelineUsage.test3    avgt    5  27.187 ± 1.530  ms/op
CachelineUsage.test4    avgt    5  25.719 ± 1.051  ms/op
CachelineUsage.test8    avgt    5  25.945 ± 1.053  ms/op
CachelineUsage.test16   avgt    5  28.804 ± 0.772  ms/op
CachelineUsage.test32   avgt    5  21.191 ± 6.582  ms/op
CachelineUsage.test64   avgt    5  13.554 ± 1.981  ms/op
CachelineUsage.test128  avgt    5   7.813 ± 0.302  ms/op

好吧，不夠直觀，咱們用一個圖表來表示：