使用Python和Java調用Shell腳本時的死鎖陷阱

最近有一項需求,要定時判斷任務執行條件是否知足並觸發 Spark 任務,平時編寫 Spark 任務時都是封裝爲一個 Jar 包,而後採用 Shell 腳本形式傳入所需參數執行,考慮到本次判斷條件邏輯複雜,只用 Shell 腳本完成不利於開發測試,因此調研使用了 Python 和 Java 分別調用 Spark 腳本的方法。html

使用版本爲 Python 3.6.4 及 JDK 8java

Python

主要使用 subprocess 庫。Python 的 API 變更比較頻繁,在 3.5 以後新增了 run 方法,這大大下降了使用難度和碰見 Bug 的機率。python

subprocess.run(["ls", "-l"])
subprocess.run(["sh", "/path/to/your/script.sh", "arg1", "arg2"])

爲何說使用 run 方法能夠下降碰見 Bug 的機率呢?
在沒有 run 方法以前,咱們通常調用其餘的高級方法,即 Older high-level API,好比 callcheck_all,或者直接建立 Popen 對象。由於默認的輸出是 console,這時若是對 API 不熟悉或者沒有仔細看 doc,想要等待子進程運行完畢並獲取輸出,使用了 stdout = PIPE 再加上 wait 的話,當輸出內容不少時會致使 Buffer 寫滿,進程就一直等待讀取,造成死鎖。在一次將 Spark 的 log 輸出到 console 時,就遇到了這種奇怪的現象,下邊的腳本能夠模擬:shell

# a.sh
for i in {0..9999}; do
    echo '***************************************************'
done
p = subprocess.Popen(['sh', 'a.sh'], stdout=subprocess.PIPE)
p.wait()

call 則在方法內部直接調用了 wait 產生相同的效果。
要避免死鎖,則必須在 wait 方法調用以前自行處理掉輸入輸出,或者使用推薦的 communicate 方法。 communicate 方法是在內部生成了讀取線程分別讀取 stdout stderr,從而避免了 Buffer 寫滿。而以前提到的新的 run 方法,就是在內部調用了 communicateapache

stdout, stderr = process.communicate(input, timeout=timeout)

Java

說完了 Python,Java 就簡單多了。
Java 通常使用 Runtime.getRuntime().exec() 或者 ProcessBuilder 調用外部腳本:數組

Process p = Runtime.getRuntime().exec(new String[]{"ls", "-al"});
Scanner sc = new Scanner(p.getInputStream());
while (sc.hasNextLine()) {
    System.out.println(sc.nextLine());
}
// or
Process p = new ProcessBuilder("sh", "a.sh").start();  
p.waitFor(); // dead lock

須要注意的是,這裏 stream 的方向是相對於主程序的,因此 getInputStream() 就是子進程的輸出,而 getOutputStream() 是子進程的輸入。測試

基於一樣的 Buffer 緣由,假如調用了 waitFor 方法等待子進程執行完畢而沒有及時處理輸出的話,就會形成死鎖。
因爲 Java API 不多變更,因此沒有像 Python 那樣提供新的 run 方法,可是開源社區也給出了本身的方案,如commons exec,或 http://www.baeldung.com/run-shell-command-in-java,或 alvin alexander 給出的方案(雖然不完整)。ui

// commons exec,要想獲取輸出的話,相比 python 來講要複雜一些
CommandLine commandLine = CommandLine.parse("sh a.sh");
        
ByteArrayOutputStream out = new ByteArrayOutputStream();
PumpStreamHandler streamHandler = new PumpStreamHandler(out);
        
Executor executor = new DefaultExecutor();
executor.setStreamHandler(streamHandler);
executor.execute(commandLine);
        
String output = new String(out.toByteArray());

但其中的思想和 Python 都是統一的,就是在後臺開啓新線程讀取子進程的輸出,防止 Buffer 寫滿。.net

另外一個統一思想的地方就是,都推薦使用數組或 list 將輸入的 shell 命令分隔成多段,這樣的話就由系統來處理空格等特殊字符問題。線程

Original article in my Blog

參考:
https://dcreager.net/2009/08/06/subprocess-communicate-drawbacks/
https://alvinalexander.com/java/java-exec-processbuilder-process-1
https://www.javaworld.com/article/2071275/core-java/when-runtime-exec---won-t.html

相關文章
相關標籤/搜索