Elasticsearch 通過Scroll遍歷索引，構造pandas dataframe 【Python多進程實現】

時間 2021-07-13

原文原文鏈接

首先，python 多線程不能充分利用多核CPU的計算資源（只能共用一個CPU），所以得用多進程。筆者從3.7億數據的索引，取200多萬的數據，從取數據到構造pandas dataframe總共大概用時14秒左右。每個分片用一個進程查詢數據，最後拼接出完整的結果。由於返回的json數據量較大，每次100多萬到200多萬，如何快速根據json構造pandas 的dataframe是個問題 — 筆者

>>阅读原文<<