十分鐘搞定pandas（二）

 
         In 
           
         [ 
         73 
         ] 
         : 
           
         df 
           
         = 
           
         pd 
         . 
         DataFrame 
         ( 
         np 
         . 
         random 
         . 
         randn 
         ( 
         10 
         , 
           
         4 
         ) 
         ) 
        
         In 
           
         [ 
         74 
         ] 
         : 
           
         df 
        
         Out 
         [ 
         74 
         ] 
         : 
           
         0 
                   
         1 
                   
         2 
                   
         3 
        
         0 
           
         - 
         0.548702 
            
         1.467327 
           
         - 
         1.015962 
           
         - 
         0.483075 
        
         1 
            
         1.637550 
           
         - 
         1.217659 
           
         - 
         0.291519 
           
         - 
         1.745505 
        
         2 
           
         - 
         0.263952 
            
         0.991460 
           
         - 
         0.919069 
            
         0.266046 
        
         3 
           
         - 
         0.709661 
            
         1.669052 
            
         1.037882 
           
         - 
         1.705775 
        
         4 
           
         - 
         0.919854 
           
         - 
         0.042379 
            
         1.247642 
           
         - 
         0.009920 
        
         5 
            
         0.290213 
            
         0.495767 
            
         0.362949 
            
         1.548106 
        
         6 
           
         - 
         1.131345 
           
         - 
         0.089329 
            
         0.337863 
           
         - 
         0.945867 
        
         7 
           
         - 
         0.932132 
            
         1.956030 
            
         0.017587 
           
         - 
         0.016692 
        
         8 
           
         - 
         0.575247 
            
         0.254161 
           
         - 
         1.143704 
            
         0.215897 
        
         9 
            
         1.193555 
           
         - 
         0.077118 
           
         - 
         0.408530 
           
         - 
         0.862495 
        
         # break it into pieces 
        
         In 
           
         [ 
         75 
         ] 
         : 
           
         pieces 
           
         = 
           
         [ 
         df 
         [ 
         : 
         3 
         ] 
         , 
           
         df 
         [ 
         3 
         : 
         7 
         ] 
         , 
           
         df 
         [ 
         7 
         : 
         ] 
         ] 
        
         In 
           
         [ 
         76 
         ] 
         : 
           
         pd 
         . 
         concat 
         ( 
         pieces 
         ) 
        
         Out 
         [ 
         76 
         ] 
         : 
           
         0 
                   
         1 
                   
         2 
                   
         3 
        
         0 
           
         - 
         0.548702 
            
         1.467327 
           
         - 
         1.015962 
           
         - 
         0.483075 
        
         1 
            
         1.637550 
           
         - 
         1.217659 
           
         - 
         0.291519 
           
         - 
         1.745505 
        
         2 
           
         - 
         0.263952 
            
         0.991460 
           
         - 
         0.919069 
            
         0.266046 
        
         3 
           
         - 
         0.709661 
            
         1.669052 
            
         1.037882 
           
         - 
         1.705775 
        
         4 
           
         - 
         0.919854 
           
         - 
         0.042379 
            
         1.247642 
           
         - 
         0.009920 
        
         5 
            
         0.290213 
            
         0.495767 
            
         0.362949 
            
         1.548106 
        
         6 
           
         - 
         1.131345 
           
         - 
         0.089329 
            
         0.337863 
           
         - 
         0.945867 
        
         7 
           
         - 
         0.932132 
            
         1.956030 
            
         0.017587 
           
         - 
         0.016692 
        
         8 
           
         - 
         0.575247 
            
         0.254161 
           
         - 
         1.143704 
            
         0.215897 
        
         9 
            
         1.193555 
           
         - 
         0.077118 
           
         - 
         0.408530 
           
         - 
         0.862495

 
         In 
           
         [ 
         82 
         ] 
         : 
           
         df 
           
         = 
           
         pd 
         . 
         DataFrame 
         ( 
         np 
         . 
         random 
         . 
         randn 
         ( 
         8 
         , 
           
         4 
         ) 
         , 
           
         columns 
         = 
         [ 
         'A' 
         , 
         'B' 
         , 
         'C' 
         , 
         'D' 
         ] 
         ) 
        
         In 
           
         [ 
         83 
         ] 
         : 
           
         df 
        
         Out 
         [ 
         83 
         ] 
         : 
           
         A 
                   
         B 
                   
         C 
                   
         D 
        
         0 
            
         1.346061 
            
         1.511763 
            
         1.627081 
           
         - 
         0.990582 
        
         1 
           
         - 
         0.441652 
            
         1.211526 
            
         0.268520 
            
         0.024580 
        
         2 
           
         - 
         1.577585 
            
         0.396823 
           
         - 
         0.105381 
           
         - 
         0.532532 
        
         3 
            
         1.453749 
            
         1.208843 
           
         - 
         0.080952 
           
         - 
         0.264610 
        
         4 
           
         - 
         0.727965 
           
         - 
         0.589346 
            
         0.339969 
           
         - 
         0.693205 
        
         5 
           
         - 
         0.339355 
            
         0.593616 
            
         0.884345 
            
         1.591431 
        
         6 
            
         0.141809 
            
         0.220390 
            
         0.435589 
            
         0.192451 
        
         7 
           
         - 
         0.096701 
            
         0.803351 
            
         1.715071 
           
         - 
         0.708758 
        
         In 
           
         [ 
         84 
         ] 
         : 
           
         s 
           
         = 
           
         df 
         . 
         iloc 
         [ 
         3 
         ] 
        
         In 
           
         [ 
         85 
         ] 
         : 
           
         df 
         . 
         append 
         ( 
         s 
         , 
           
         ignore_index 
         = 
         True 
         ) 
        
         Out 
         [ 
         85 
         ] 
         : 
           
         A 
                   
         B 
                   
         C 
                   
         D 
        
         0 
            
         1.346061 
            
         1.511763 
            
         1.627081 
           
         - 
         0.990582 
        
         1 
           
         - 
         0.441652 
            
         1.211526 
            
         0.268520 
            
         0.024580 
        
         2 
           
         - 
         1.577585 
            
         0.396823 
           
         - 
         0.105381 
           
         - 
         0.532532 
        
         3 
            
         1.453749 
            
         1.208843 
           
         - 
         0.080952 
           
         - 
         0.264610 
        
         4 
           
         - 
         0.727965 
           
         - 
         0.589346 
            
         0.339969 
           
         - 
         0.693205 
        
         5 
           
         - 
         0.339355 
            
         0.593616 
            
         0.884345 
            
         1.591431 
        
         6 
            
         0.141809 
            
         0.220390 
            
         0.435589 
            
         0.192451 
        
         7 
           
         - 
         0.096701 
            
         0.803351 
            
         1.715071 
           
         - 
         0.708758 
        
         8 
            
         1.453749 
            
         1.208843 
           
         - 
         0.080952 
           
         - 
         0.264610

 
         In 
           
         [ 
         90 
         ] 
         : 
           
         tuples 
           
         = 
           
         list 
         ( 
         zip 
         ( 
         * 
         [ 
         [ 
         'bar' 
         , 
           
         'bar' 
         , 
           
         'baz' 
         , 
           
         'baz' 
         , 
        
 
             
         . 
         . 
         . 
         . 
         : 
                                
         'foo' 
         , 
           
         'foo' 
         , 
           
         'qux' 
         , 
           
         'qux' 
         ] 
         , 
        
 
             
         . 
         . 
         . 
         . 
         : 
                               
         [ 
         'one' 
         , 
           
         'two' 
         , 
           
         'one' 
         , 
           
         'two' 
         , 
        
 
             
         . 
         . 
         . 
         . 
         : 
                                
         'one' 
         , 
           
         'two' 
         , 
           
         'one' 
         , 
           
         'two' 
         ] 
         ] 
         ) 
         ) 
        
 
             
         . 
         . 
         . 
         . 
         : 
           
        
 
         In 
           
         [ 
         91 
         ] 
         : 
           
         index 
           
         = 
           
         pd 
         . 
         MultiIndex 
         . 
         from_tuples 
         ( 
         tuples 
         , 
           
         names 
         = 
         [ 
         'first' 
         , 
           
         'second' 
         ] 
         ) 
        
 
         In 
           
         [ 
         92 
         ] 
         : 
           
         df 
           
         = 
           
         pd 
         . 
         DataFrame 
         ( 
         np 
         . 
         random 
         . 
         randn 
         ( 
         8 
         , 
           
         2 
         ) 
         , 
           
         index 
         = 
         index 
         , 
           
         columns 
         = 
         [ 
         'A' 
         , 
           
         'B' 
         ] 
         ) 
        
 
         In 
           
         [ 
         93 
         ] 
         : 
           
         df2 
           
         = 
           
         df 
         [ 
         : 
         4 
         ] 
        
 
         In 
           
         [ 
         94 
         ] 
         : 
           
         df2 
        
 
         Out 
         [ 
         94 
         ] 
         : 
           
        
 
                               
         A 
                   
         B 
        
 
         first  
         second                     
        
 
         bar    
         one 
               
         0.029399 
           
         - 
         0.542108 
        
 
                
         two 
               
         0.282696 
           
         - 
         0.087302 
        
 
         baz    
         one 
              
         - 
         1.575170 
            
         1.771208 
        
 
                
         two 
               
         0.816482 
            
         1.100230 
        

 
         In 
           
         [ 
         102 
         ] 
         : 
           
         pd 
         . 
         pivot_table 
         ( 
         df 
         , 
           
         values 
         = 
         'D' 
         , 
           
         index 
         = 
         [ 
         'A' 
         , 
           
         'B' 
         ] 
         , 
           
         columns 
         = 
         [ 
         'C' 
         ] 
         ) 
        
         Out 
         [ 
         102 
         ] 
         : 
           
         C 
                       
         bar        
         foo 
        
         A 
               
         B 
                              
         one 
             
         A 
           
         - 
         0.773723 
            
         1.418757 
        
         B 
           
         - 
         0.029716 
           
         - 
         1.879024 
        
         C 
           
         - 
         1.146178 
            
         0.314665 
        
         three 
           
         A 
            
         1.006160 
                 
         NaN 
        
         B 
                 
         NaN 
           
         - 
         1.035018 
        
         C 
            
         0.648740 
                 
         NaN 
        
         two 
             
         A 
                 
         NaN 
            
         0.100900 
        
         B 
           
         - 
         1.170653 
                 
         NaN 
        
         C 
                 
         NaN 
            
         0.536826

 
         In 
           
         [ 
         106 
         ] 
         : 
           
         rng 
           
         = 
           
         pd 
         . 
         date_range 
         ( 
         '3/6/2012 00:00' 
         , 
           
         periods 
         = 
         5 
         , 
           
         freq 
         = 
         'D' 
         ) 
        
 
         In 
           
         [ 
         107 
         ] 
         : 
           
         ts 
           
         = 
           
         pd 
         . 
         Series 
         ( 
         np 
         . 
         random 
         . 
         randn 
         ( 
         len 
         ( 
         rng 
         ) 
         ) 
         , 
           
         rng 
         ) 
        
 
         In 
           
         [ 
         108 
         ] 
         : 
           
         ts 
        
 
         Out 
         [ 
         108 
         ] 
         : 
           
        
 
         2012 
         - 
         03 
         - 
         06 
              
         0.464000 
        
 
         2012 
         - 
         03 
         - 
         07 
              
         0.227371 
        
 
         2012 
         - 
         03 
         - 
         08 
             
         - 
         0.496922 
        
 
         2012 
         - 
         03 
         - 
         09 
              
         0.306389 
        
 
         2012 
         - 
         03 
         - 
         10 
             
         - 
         2.290613 
        
 
         Freq 
         : 
           
         D 
         , 
           
         dtype 
         : 
           
         float64 
        

            
        
 
         In 
           
         [ 
         109 
         ] 
         : 
           
         ts_utc 
           
         = 
           
         ts 
         . 
         tz_localize 
         ( 
         'UTC' 
         ) 
        
 
         In 
           
         [ 
         110 
         ] 
         : 
           
         ts_utc 
        
 
         Out 
         [ 
         110 
         ] 
         : 
           
        
 
         2012 
         - 
         03 
         - 
         06 
           
         00 
         : 
         00 
         : 
         00 
         + 
         00 
         : 
         00 
              
         0.464000 
        
 
         2012 
         - 
         03 
         - 
         07 
           
         00 
         : 
         00 
         : 
         00 
         + 
         00 
         : 
         00 
              
         0.227371 
        
 
         2012 
         - 
         03 
         - 
         08 
           
         00 
         : 
         00 
         : 
         00 
         + 
         00 
         : 
         00 
             
         - 
         0.496922 
        
 
         2012 
         - 
         03 
         - 
         09 
           
         00 
         : 
         00 
         : 
         00 
         + 
         00 
         : 
         00 
              
         0.306389 
        
 
         2012 
         - 
         03 
         - 
         10 
           
         00 
         : 
         00 
         : 
         00 
         + 
         00 
         : 
         00 
             
         - 
         2.290613 
        
 
         Freq 
         : 
           
         D 
         , 
           
         dtype 
         : 
           
         float64 
        

 
         In 
          
         [ 
         111 
         ] 
         : 
          
         ts_utc 
         . 
         tz_convert 
         ( 
         'US/Eastern' 
         ) 
        
 
         Out 
         [ 
         111 
         ] 
         : 
          
        
 
         2012 
         - 
         03 
         - 
         05 
          
         19 
         : 
         00 
         : 
         00 
         - 
         05 
         : 
         00 
              
         0.464000 
        
 
         2012 
         - 
         03 
         - 
         06 
          
         19 
         : 
         00 
         : 
         00 
         - 
         05 
         : 
         00 
              
         0.227371 
        
 
         2012 
         - 
         03 
         - 
         07 
          
         19 
         : 
         00 
         : 
         00 
         - 
         05 
         : 
         00 
            
         - 
         0.496922 
        
 
         2012 
         - 
         03 
         - 
         08 
          
         19 
         : 
         00 
         : 
         00 
         - 
         05 
         : 
         00 
              
         0.306389 
        
 
         2012 
         - 
         03 
         - 
         09 
          
         19 
         : 
         00 
         : 
         00 
         - 
         05 
         : 
         00 
            
         - 
         2.290613 
        
 
         Freq 
         : 
          
         D 
         , 
          
         dtype 
         : 
          
         float64 
        

 
         In 
           
         [ 
         112 
         ] 
         : 
           
         rng 
           
         = 
           
         pd 
         . 
         date_range 
         ( 
         '1/1/2012' 
         , 
           
         periods 
         = 
         5 
         , 
           
         freq 
         = 
         'M' 
         ) 
        
 
         In 
           
         [ 
         113 
         ] 
         : 
           
         ts 
           
         = 
           
         pd 
         . 
         Series 
         ( 
         np 
         . 
         random 
         . 
         randn 
         ( 
         len 
         ( 
         rng 
         ) 
         ) 
         , 
           
         index 
         = 
         rng 
         ) 
        
 
         In 
           
         [ 
         114 
         ] 
         : 
           
         ts 
        
 
         Out 
         [ 
         114 
         ] 
         : 
           
        
 
         2012 
         - 
         01 
         - 
         31 
             
         - 
         1.134623 
        
 
         2012 
         - 
         02 
         - 
         29 
             
         - 
         1.561819 
        
 
         2012 
         - 
         03 
         - 
         31 
             
         - 
         0.260838 
        
 
         2012 
         - 
         04 
         - 
         30 
              
         0.281957 
        
 
         2012 
         - 
         05 
         - 
         31 
              
         1.523962 
        
 
         Freq 
         : 
           
         M 
         , 
           
         dtype 
         : 
           
         float64 
        

            
        
 
         In 
           
         [ 
         115 
         ] 
         : 
           
         ps 
           
         = 
           
         ts 
         . 
         to_period 
         ( 
         ) 
        
 
         In 
           
         [ 
         116 
         ] 
         : 
           
         ps 
        
 
         Out 
         [ 
         116 
         ] 
         : 
           
        
 
         2012 
         - 
         01 
             
         - 
         1.134623 
        
 
         2012 
         - 
         02 
             
         - 
         1.561819 
        
 
         2012 
         - 
         03 
             
         - 
         0.260838 
        
 
         2012 
         - 
         04 
              
         0.281957 
        
 
         2012 
         - 
         05 
              
         1.523962 
        
 
         Freq 
         : 
           
         M 
         , 
           
         dtype 
         : 
           
         float64 
        

            
        
 
         In 
           
         [ 
         117 
         ] 
         : 
           
         ps 
         . 
         to_timestamp 
         ( 
         ) 
        
 
         Out 
         [ 
         117 
         ] 
         : 
           
        
 
         2012 
         - 
         01 
         - 
         01 
             
         - 
         1.134623 
        
 
         2012 
         - 
         02 
         - 
         01 
             
         - 
         1.561819 
        
 
         2012 
         - 
         03 
         - 
         01 
             
         - 
         0.260838 
        
 
         2012 
         - 
         04 
         - 
         01 
              
         0.281957 
        
 
         2012 
         - 
         05 
         - 
         01 
              
         1.523962 
        
 
         Freq 
         : 
           
         MS 
         , 
           
         dtype 
         : 
           
         float64 
        

 
         In 
          
         [ 
         118 
         ] 
         : 
          
         prng 
          
         = 
          
         pd 
         . 
         period_range 
         ( 
         '1990Q1' 
         , 
          
         '2000Q4' 
         , 
          
         freq 
         = 
         'Q-NOV' 
         ) 
        
 
         In 
          
         [ 
         119 
         ] 
         : 
          
         ts 
          
         = 
          
         pd 
         . 
         Series 
         ( 
         np 
         . 
         random 
         . 
         randn 
         ( 
         len 
         ( 
         prng 
         ) 
         ) 
         , 
          
         prng 
         ) 
        
 
         In 
          
         [ 
         120 
         ] 
         : 
          
         ts 
         . 
         index 
          
         = 
          
         ( 
         prng 
         . 
         asfreq 
         ( 
         'M' 
         , 
          
         'e' 
         ) 
          
         + 
          
         1 
         ) 
         . 
         asfreq 
         ( 
         'H' 
         , 
          
         's' 
         ) 
          
         + 
          
         9 
        
 
         In 
          
         [ 
         121 
         ] 
         : 
          
         ts 
         . 
         head 
         ( 
         ) 
        
 
         Out 
         [ 
         121 
         ] 
         : 
          
        
 
         1990 
         - 
         03 
         - 
         01 
          
         09 
         : 
         00 
            
         - 
         0.902937 
        
 
         1990 
         - 
         06 
         - 
         01 
          
         09 
         : 
         00 
              
         0.068159 
        
 
         1990 
         - 
         09 
         - 
         01 
          
         09 
         : 
         00 
            
         - 
         0.057873 
        
 
         1990 
         - 
         12 
         - 
         01 
          
         09 
         : 
         00 
            
         - 
         0.368204 
        
 
         1991 
         - 
         03 
         - 
         01 
          
         09 
         : 
         00 
            
         - 
         1.144073 
        
 
         Freq 
         : 
          
         H 
         , 
          
         dtype 
         : 
          
         float64 
        

1	In [ 122 ] : df = pd . DataFrame ( { "id" : [ 1 , 2 , 3 , 4 , 5 , 6 ] , "raw_grade" : [ 'a' , 'b' , 'b' , 'a' , 'a' , 'e' ] } )

十分鐘搞定pandas（二）

合併

連接

連接

添加

分組

重塑

堆疊

數據透視表

時間序列

分類