大批量數據高效插入數據庫表

時間 2019-12-10

原文原文鏈接

　　對於一些數據量較大的系統，數據庫面臨的問題除了查詢效率低下，還有就是數據入庫時間長。特別像報表系統，天天花費在數據導入上的時間可能會長達幾個小時或十幾個小時之久。所以，優化數據庫插入性能是頗有意義的。
java

通過對MySQL InnoDB的一些性能測試，發現一些能夠提升insert效率的方法，供你們參考參考。mysql

一、一條SQL語句插入多條數據

經常使用的插入語句如：sql

INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`) VALUES ('0', 'userid_0', 'content_0', 0); INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`) VALUES ('1', 'userid_1', 'content_1', 1);

修改爲：數據庫

INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`) VALUES ('0', 'userid_0', 'content_0', 0), ('1', 'userid_1', 'content_1', 1);

　　修改後的插入操做可以提升程序的插入效率。這裏第二種SQL執行效率高的主要緣由是: (1)經過合併SQL語句，同時也能減小SQL語句解析的次數，減小了數據庫鏈接的I/O開銷，通常會把多條數據插入放在一條SQL語句中一次執行; (2)合併後日志量（MySQL的binlog和innodb的事務讓日誌）減小了，下降日誌刷盤的數據量和頻率，從而提升效率。
　　這裏提供一些測試對比數據，分別是進行單條數據的導入與轉化成一條SQL語句進行導入，分別測試1百、1千、1萬條數據記錄。性能

　　批量插入的確是比一條條插入效率高的多測試

　　批量插入若是數據量太大可能出現下面的狀況：優化

　　MySQL報錯:Packets larger than max_allowed_packet are not allowed （經過修改max_allowed_packet的值來解決，show VARIABLES like '%max_allowed_packet%';）ui

二、在事務中進行插入處理。

把插入修改爲：url

START TRANSACTION; INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)  VALUES ('0', 'userid_0', 'content_0', 0); INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)  VALUES ('1', 'userid_1', 'content_1', 1); ... COMMIT;

　　使用事務能夠提升數據的插入效率，這是由於進行一個INSERT操做時，MySQL內部會創建一個事務，在事務內才進行真正插入處理操做。經過使用事務能夠減小建立事務的消耗，全部插入都在執行後才進行提交操做。
　　這裏也提供了測試對比，分別是不使用事務與使用事務在記錄數爲1百、1千、1萬的狀況。spa

三、數據有序插入

數據有序的插入是指插入記錄在主鍵上是有序排列，例如datetime是記錄的主鍵：

INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)  VALUES ('1', 'userid_1', 'content_1', 1); INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)  VALUES ('0', 'userid_0', 'content_0', 0); INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)  VALUES ('2', 'userid_2', 'content_2',2);

修改爲：

INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)  VALUES ('0', 'userid_0', 'content_0', 0); INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)  VALUES ('1', 'userid_1', 'content_1', 1); INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)  VALUES ('2', 'userid_2', 'content_2',2);

　　因爲數據庫插入時，須要維護索引數據，無序的記錄會增大維護索引的成本。咱們能夠參照InnoDB使用的B+tree索引，若是每次插入記錄都在索引的最後面，索引的定位效率很高，而且對索引調整較小；若是插入的記錄在索引中間，須要B+tree進行分裂合併等處理，會消耗比較多計算資源，而且插入記錄的索引定位效率會降低，數據量較大時會有頻繁的磁盤操做。
　　下面提供隨機數據與順序數據的性能對比，分別是記錄爲1百、1千、1萬、10萬、100萬。

從測試結果來看，該優化方法的性能有所提升，可是提升並非很明顯。

四、性能綜合測試

這裏提供了同時使用上面三種方法進行INSERT效率優化的測試。

　　從測試結果能夠看到，合併數據+事務的方法在較小數據量時，性能提升是很明顯的，數據量較大時（1千萬以上），性能會急劇降低，這是因爲此時數據量超過了innodb_buffer的容量，每次定位索引涉及較多的磁盤讀寫操做，性能降低較快。而使用合併數據+事務+有序數據的方式在數據量達到千萬級以上表現依舊是良好，在數據量較大時，有序數據索引定位較爲方便，不須要頻繁對磁盤進行讀寫操做，因此能夠維持較高的性能。

注意事項：

SQL語句是有長度限制，在進行數據合併在同一SQL中務必不能超過SQL長度限制，經過max_allowed_packet配置能夠修改，默認是1M，測試時修改成8M。
事務須要控制大小，事務太大可能會影響執行的效率。MySQL有innodb_log_buffer_size配置項，超過這個值會把innodb的數據刷到磁盤中，這時，效率會有所降低。因此比較好的作法是，在數據達到這個這個值前進行事務提交。

數據批量操做

批量執行更新sql語句的優缺點分析：

狀況一：mysql 默認是autocommit＝on也就是默認開啓自動提交事務。這種狀況下，一條sql就會開啓一個事務，這時候同時執行一萬條update，就會致使實際開啓一萬個事務，而後挨個執行，挨個開啓，挨個提交。

缺點：同時鎖住數據較少，可是數據庫資源佔用嚴重，對外提供操做性能急劇降低。

狀況二：當autocommit＝off時，同時執行一萬條update，那麼只會開啓一個事務，等到全部都update後，一併commit。

缺點：同時鎖住數據較多，外面的select進不來，大量鏈接等待獲取行鎖，一樣影響數據庫對外服務能力。

最終優化方案：

　　建議，把autocommit設置off，而後執行update的時候，手動分批commit，分批條數限制100，或者200，好比一萬條update，按照每100條就commit一次，10000個update總共須要100個事務，每次鎖住100條數據。性能將會獲得很大提高。

　　固然，選擇多少條手動commit，這個須要根據各自業務實際狀況而定。

/**
	 * 對數據庫進行批量插入數據操做
	 * 執行次數100萬
	 */
	public void insertBatch() {
		//思路：將100萬條數據分紅n等份，1等份爲1000條數據
		//如何實現？
		//一、必須將Connection接口的自動提交方式改成手動
		//二、利用Statement接口中的以下三個方法：addBatch、clearBath、executeBatch
		try {
			conn = DriverManager.getConnection(url, username, password);
			conn.setAutoCommit(false);
			stmt = conn.createStatement();
			for (int i = 0; i < 1000000; i++) {
				String sql = "insert into batch values ('"+i+"', '第"+i+"條數據')";
				//利用addBatch方法將SQL語句加入到stmt對象中
				stmt.addBatch(sql);
				if (i % 1000 == 0 && i != 0) {
					//利用executeBatch方法執行1000條SQL語句
					stmt.executeBatch();
					stmt.clearBatch();
					conn.commit();
				}
			}
			stmt.executeBatch();
			stmt.clearBatch();
			conn.commit();
			close(); //關閉資源
		} catch (SQLException e) {
			e.printStackTrace();
		}
	}