上節討論了數據量n<1000時名個函數用時規律,本節討論1000<n<100000的情形。畫圖方法如上節。函數
與上一節的圖相比,明顯變換就是處理每一個數據所需的時間減小不少。ddply已減小到5微秒之內。反而str_replace的速度在Month, season和all中差別比較大。spa
接下來咱們研究0~5微秒內的函數
從上圖能夠看出,隨着數據量的增大,只有 join函數用時比較穩定,在all,month和season這三組差異不大,其它函數或多或少都有差別。另外,除了which,for_if,ddply函數等還出現了拐點。這就說明,這些出現拐點的函數處理數據效率最高的臨界點在100000之內。blog
接下來咱們研究0~1微秒內的函數it
從上圖能夠看出,只有join函數還在持續遞減。也就是說,當數據量爲100000時,處理每一個數據所需時間大約在0.125微秒之內。which函數儘管較join函數穩定性較弱,不過整體效率仍是不錯的。class
總的來講,join<which<[for_if_else,for_if,for_switch]<[ddply,str_replace]效率
下一節咱們看看join函數的極限在什麼地方!方法
(未完!待續……)im