[趣聞] 代碼順序也會影響 LuaJIT 的執行效率

時間 2021-04-13

標籤 segmentfault 函數性能學習 lua 日誌 code get 欄目 Lua 简体版

原文原文鏈接

最近有一個有趣的發現，調整了一行 Lua 代碼的順序，執行時間卻少了接近一半 😅segmentfault

現場案例

狀況下面這個 lua 腳本 order-1.lua：函數

local function f2 (...)
    return select('#', ...)
end

local function f1 (...)
    local l = select('#', ...)
    local m = 0
    for i = 1, l do
        m = m + select(i, ...)
    end
    
    local n = f2(...)

    return m + n
end

local n = 0
for i = 1, 1000 * 1000 * 100 do
    n = n + f1(1, 2, 3, 4, 5)
end

print("n: ", n)

執行時間爲 6.3s：性能

$ time luajit order-1.lua
n:      2000000000

real    0m6.343s
user    0m6.342s
sys     0m0.000s

若是將其中的 f1 函數實現，調整一下順序：學習

local function f1 (...)
    local n = f2(...)

    local l = select('#', ...)
    local m = 0
    for i = 1, l do
        m = m + select(i, ...)
    end
    
    return m + n
end

這個改動是將 n 的計算放到 m 計算的前面。
從邏輯上來講，m 和 n 兩個是並無順序依賴，先算哪個都同樣的，可是執行時間卻少了將近一半：lua

$ time luajit order-2.lua
n:      2000000000

real    0m3.314s
user    0m3.312s
sys     0m0.002s

緣由分析

首先確定不是什麼詭異問題，計算機但是人類最真實的夥伴了，哈哈 😄日誌

此次是 Lua 這種高級語言，也不是上次那種 CPU 指令級的影響了。code

tracing JIT

此次是由於 LuaJIT 的 tracing JIT 技術的影響。ci

不像 Java 那種 method based JIT 技術，是按照函數來即時編譯的。LuaJIT 是按照 trace 來即時編譯的，trace 對應的是一串代碼執行路徑。
LuaJIT 會把熱的代碼路徑直接即時編譯生成機器碼，一串熱的代碼路徑也就是一個 trace。同時 trace 也不是無限長的，LuaJIT 有一套機制來控制 trace 的開始結束（之後找時間再詳細記錄一篇的）。get

具體來講是這樣子的，由於在 order-1.lua 裏，TRACE 1 在 m 計算的那個 for 循環處則中止了，當 TRACE 2 開始的時候，LuaJIT 還不支持這種狀況下即時編譯（還處於 NYI 狀態）VARG 這個字節碼（也就是對應的 ...）。it

因此，致使了這部分代碼不能被 JIT，迴歸到了 interpreter 模式，因此致使了這麼大的性能差別。

以下，咱們能夠在 LuaJIT 輸的日誌中看到 NYI: bytecode 71 這個關鍵信息。

$ luajit -jdump=bitmsr order-1.lua

...

---- TRACE 2 start 1/3 order.lua:13
0016  UGET     2   0      ; f2       (order.lua:13)
0017  VARG     4   0   0       (order.lua:13)
---- TRACE 2 abort order.lua:13 -- NYI: bytecode 71