Elasticsearch 通過Scroll遍歷索引,構造pandas dataframe 【Python多進程實現】

首先,python 多線程不能充分利用多核CPU的計算資源(只能共用一個CPU),所以得用多進程。筆者從3.7億數據的索引,取200多萬的數據,從取數據到構造pandas dataframe總共大概用時14秒左右。每個分片用一個進程查詢數據,最後拼接出完整的結果。 由於返回的json數據量較大,每次100多萬到200多萬,如何快速根據json構造pandas 的dataframe是個問題 — 筆者
相關文章
相關標籤/搜索