因爲項目的新版本有大改動,需求是將一些舊錶的數據轉移到新表來,因而使用PHP寫了數據腳本,對MySQL的數據進行讀取,計算,轉移,插入等處理,實現千萬級別數據的計算和轉移。這裏面也遇到一些問題,這裏作下總結:php
一、分析表數據的關聯性,整合腳本。linux
分析了幾個表數據之間的聯繫,能夠將一些有關聯的表的數據放在一個數據腳本中,好比user表和user_detail表,這兩個表的數據是有一些關聯的,一些數據值的計算不用重複讀取,減小腳本的計算操做,節約時間;sql
二、數據讀取時,減小配置數據的加載操做,減小數據查詢操做。shell
開始數據轉移時,必要的配置數據必須在腳本開始時所有加載進來,不能在轉移時用到再去進行查詢,由於每次查詢都是意味着消耗更多時間。固然這裏有個前提是你的機器內存要夠大,PHP的這種加載是比較消耗內存的。一個腳本運行起來,內存都要佔了不少G,這種其實就是用空間換時間的作法。固然,當機器內存不夠大,或者性能不夠強時,仍是先保證腳本的健壯性,再來考慮性能。數據庫
PHP可使用set_time_limit ( 0 ); @ini_set('memory_limit','2048M');來指定腳本執行的最長時間和使用內存的最大值;數組
三、腳本處理數據時,須要分段分批處理。函數
咱們在處理數據時,須要先讀取出用戶id,在根據id查詢表的數據再作處理。就是咱們的處理邏輯都是以用戶id爲基準,按照用戶id作key,數據作value的方式,遍歷數據。爲了減小機器的負載,充分利用機器的性能,咱們使用一個while循環,每次處理3000個用戶的數據,轉移完後再查詢出3000個用戶的數據,如此類推,直到全部數據處理完,也就是跳出while循環。性能
同時必需要保證數據的有效性,否則insert不進去。這裏還遇到過一個問題,就是在使用PHP的函數批量insert數據時,有時一個sql語句數據量太多,會超過MySQL最大的insert限制,因此在insert以前,須要將須要插入的數據進行分段,也就是對數據進行隔斷處理,分批插入。PHP中可使用array_slice()對數組數據進行分段。學習
四、將屢次MySQL處理集合在一次的commit上。優化
咱們在一次循環中是使用了一次try-catch來監控一次操做,當某個數據處理有異常時,就直接拋出異常,保證每次處理數據的完整性。咱們每次處理開始前,先開啓一個事務,處理完成後會進行一次提交事務。爲了節省時間,能夠優化成:開啓一個事務,在遍歷了多個用戶數據後,再進行一次提交,或者在遇到異常後也提交一次,這樣能夠保證數據完整,也能夠減小屢次commit db的操做,節約時間。
五、使用shell腳本整合每一個PHP腳本,開啓多個PHP進程。
由於咱們處理一個庫的數據要涉及到多個PHP腳本,可使用shell來整合多個腳本,而且讓其順序執行。使用nohub命令不掛斷地運行命令(後面再單獨介紹這個linux命令)。根據機器的核數來開啓多少個PHP進程,充分發揮機器的性能。
好比執行一個PHP腳本,能夠這樣子:
進程1:php move_user.php a 0 10000 進程2:php move_user.php a 10000 20000 進程3:php move_user.php b 0 10000 進程4:php move_user.php b 10000 20000
這樣表示使用PHP cli模式(命令模式)執行一個PHP腳本,對於進程1,a 表示是數據庫a,0 和10000表示從用戶id 0開始,執行到用戶id 10000 結束,一個進程處理10000個用戶數據。
進程2表示執行數據庫a 10000 到20000的用戶數據。
這樣多個進程,能夠同時執行多個庫的數據,多個區段的用戶數據,節省時間。
固然,每次處理多少個用戶數據,每次開多少個進程,每次遍歷多少數據,都是根據項目的業務數據,和機器的最大負載來綜合處理,達到一個平衡狀態。
---------------------------------------------------END----------------------------------------------------
歡迎關注個人公衆號【phper的進階之路】
不斷更新各類技術心得,免費提供各類學習資源!