多進程PHP腳本實現海量數據轉移總結

 

背景

因爲項目的新版本有大改動,需求是將一些舊錶的數據轉移到新表來,因而使用PHP寫了數據腳本,對MySQL的數據進行讀取,計算,轉移,插入等處理,實現千萬級別數據的計算和轉移。這裏面也遇到一些問題,這裏作下總結:php

需求

  • 將幾個舊錶的數據拷到新表來,有些字段發生了變化,有些字段的值須要計算;
  • 單表數據量到達千萬級,並且線上有多個庫,要對腳本進行必要的優化;
  • 腳本執行時間控制在兩個小時以內;

 

實現過程

一、分析表數據的關聯性,整合腳本。linux

分析了幾個表數據之間的聯繫,能夠將一些有關聯的表的數據放在一個數據腳本中,好比user表和user_detail表,這兩個表的數據是有一些關聯的,一些數據值的計算不用重複讀取,減小腳本的計算操做,節約時間;sql

 

二、數據讀取時,減小配置數據的加載操做,減小數據查詢操做。shell

開始數據轉移時,必要的配置數據必須在腳本開始時所有加載進來,不能在轉移時用到再去進行查詢,由於每次查詢都是意味着消耗更多時間。固然這裏有個前提是你的機器內存要夠大,PHP的這種加載是比較消耗內存的。一個腳本運行起來,內存都要佔了不少G,這種其實就是用空間換時間的作法。固然,當機器內存不夠大,或者性能不夠強時,仍是先保證腳本的健壯性,再來考慮性能。數據庫

PHP可使用set_time_limit ( 0 ); @ini_set('memory_limit','2048M');來指定腳本執行的最長時間和使用內存的最大值;數組

 

三、腳本處理數據時,須要分段分批處理。函數

咱們在處理數據時,須要先讀取出用戶id,在根據id查詢表的數據再作處理。就是咱們的處理邏輯都是以用戶id爲基準,按照用戶id作key,數據作value的方式,遍歷數據。爲了減小機器的負載,充分利用機器的性能,咱們使用一個while循環,每次處理3000個用戶的數據,轉移完後再查詢出3000個用戶的數據,如此類推,直到全部數據處理完,也就是跳出while循環。性能

同時必需要保證數據的有效性,否則insert不進去。這裏還遇到過一個問題,就是在使用PHP的函數批量insert數據時,有時一個sql語句數據量太多,會超過MySQL最大的insert限制,因此在insert以前,須要將須要插入的數據進行分段,也就是對數據進行隔斷處理,分批插入。PHP中可使用array_slice()對數組數據進行分段。學習

 

四、將屢次MySQL處理集合在一次的commit上。優化

咱們在一次循環中是使用了一次try-catch來監控一次操做,當某個數據處理有異常時,就直接拋出異常,保證每次處理數據的完整性。咱們每次處理開始前,先開啓一個事務,處理完成後會進行一次提交事務。爲了節省時間,能夠優化成:開啓一個事務,在遍歷了多個用戶數據後,再進行一次提交,或者在遇到異常後也提交一次,這樣能夠保證數據完整,也能夠減小屢次commit db的操做,節約時間。

 

五、使用shell腳本整合每一個PHP腳本,開啓多個PHP進程。

由於咱們處理一個庫的數據要涉及到多個PHP腳本,可使用shell來整合多個腳本,而且讓其順序執行。使用nohub命令不掛斷地運行命令(後面再單獨介紹這個linux命令)。根據機器的核數來開啓多少個PHP進程,充分發揮機器的性能。

 

例子

好比執行一個PHP腳本,能夠這樣子:

進程1:php move_user.php a 0 10000

進程2:php move_user.php a 10000 20000

進程3:php move_user.php b 0 10000

進程4:php move_user.php b 10000 20000

 

這樣表示使用PHP cli模式(命令模式)執行一個PHP腳本,對於進程1,a 表示是數據庫a,0 和10000表示從用戶id 0開始,執行到用戶id 10000 結束,一個進程處理10000個用戶數據。

進程2表示執行數據庫a 10000 到20000的用戶數據。

這樣多個進程,能夠同時執行多個庫的數據,多個區段的用戶數據,節省時間。

固然,每次處理多少個用戶數據,每次開多少個進程,每次遍歷多少數據,都是根據項目的業務數據,和機器的最大負載來綜合處理,達到一個平衡狀態。

總結

  • 這次數據處理本來預期要一個小時,結果因爲其餘緣由,後面花費了兩個多小時,但總體都是在計劃以內,因此是正常的;
  • PHP和MySQL作數據交互,充分利用了PHP的性能後,瓶頸就在與MySQL更新和插入數據了,咱們就是經過分段循環處理,分段提交事務來平衡了MySQL的瓶頸;
  • MySQL單表數據太大,後面須要單獨對這塊進行優化,否則之後對數據進行更新和備份時,都要浪費大量的時間;
  • 必須保證腳本邏輯沒有問題,否則後面重跑就很蛋疼了。

 

相關閱讀

PHP+MySQL實現海量數據導入導出的一些總結

 

---------------------------------------------------END----------------------------------------------------

歡迎關注個人公衆號【phper的進階之路】

不斷更新各類技術心得,免費提供各類學習資源!

相關文章
相關標籤/搜索