實戰手記:讓百萬級數據瞬間導入SQL Server

想必每一個DBA都喜歡挑戰數據導入時間,用時越短工做效率越高,也充分的可以證實本身的實力。實際工做中有時候須要把大量數據導入數據庫,而後用於各類程序計算,本文將向你們推薦一個挑戰4秒極限讓百萬級數據瞬間導入SQL Server實驗案例。

本實驗將使用5中方法完成這個過程,並詳細記錄各類方法所耗費的時間。所用到工具爲Visual Studio 2008和SQL Server 2000、SQL Server 2008,分別使用5中方法將100萬條數據導入SQL Server 2000與SQL Server 2008中,實驗環境是DELL 2850雙2.0GCPU,2G內存的服務器。感興趣的朋友能夠下載源代碼本身驗證一下所用時間。

好了,下面咱們分別使用基本的Insert 語句、使用BULK INSERT語句、在多線程中使用BULK INSERT、使用SqlBulkCopy類、在多線程中使用SqlBulkCopy類五種方法,挑戰4秒極限。還要有一點須要進行說明,本實驗中執行SQL語句的地方使用了IsLine FrameWork框架中的DataProvider模塊,這個模塊只是對SQL配置的讀取和封裝,並不會對最終結果有本質性的影響,關於IsLine FrameWork框架方面的知識,請參考「IsLine FrameWork」框架系列文章。

數據庫方面使用SQL Server 2000與SQL Server 2008,表名TableB,字段名稱爲Value1,數據庫名能夠在App.config中修改,默認爲test。

方法一.使用基本的Insert 語句

這種方法是最基本的方法,大多數人一開始都會想到這種方法。可是Insert語句彷佛並不適合大批量的操做,是否是這樣呢?

本方法中將100萬數據分爲10個批次,每一個批次10萬條,每10萬條1個事務,分10次導入數據庫。

-->基本語句:

Insert Into TableB (Value1) values (‘」+i+」’); 說明:語句中的i是宿主程序中的一個累加變量,用於填充數據庫字段中的值。

SQL Server 2000 耗時:901599

SQL Server 2008耗時:497638

方法二.使用BULK INSERT語句

這個類的效果,在本實驗中能夠說是最使人滿意的了,它的使用最簡便、靈活,速度很快。

「BULK INSERT」語句彷佛不是很經常使用, Aicken據說Oracle中有一種能夠將外部文件映射爲Oracle臨時表,而後直接將臨時表中的數據導入Oracle其餘表中的方法,這種方法的速度很是使人滿意,SQL SERVER的BULK INSERT是否是一樣使人滿意呢?

--> 基本語句:

BULK INSERT TableB FROM '

c:\\sql.txt' WITH (FIELDTERMINATOR = ',',ROWTER

/.,mbMINATOR='|',BATCHSIZE = 100000)

說明:「c:\\sql.txt」是一個預先生成的包含100條數據的文件,這些數據以「|」符號分隔,每10萬條數據一個事務。

SQL Server 2000耗時:4009

SQL Server 2008耗時:10722

方法三.在多線程中使用BULK INSERT

在方法二的基礎上,將100萬條數據分五個線程,每一個線程負責20萬條數據,每5萬條一個事物,五個線程同時啓動,看看這樣的效果吧。

SQL Server 2000耗時:21099

SQL Server 2008耗時:10997

方法四.使用SqlBulkCopy類

這種方法速度也很快,可是要依賴內存,對於幾千萬條、多字段的複雜數據,可能在內存方面會有較大的消耗,不過可使用64位解決方案處理這個問題。

幾千萬條、多字段的數據的狀況通常在一些業務場景中會遇到,好比計算全球消費者某個業務週期消費額時,要先得到主數據庫表中的會員消費記錄快照,並將快照儲存至臨時表中,而後供計算程序使用這些數據。而且有些時候消費者的消費數據並不在一臺數據庫服務器中,而是來自多個國家的多臺服務器,這樣咱們就必須藉助內存或外存設備中轉這些數據,而後清洗、合併、檢測,最後導入專用表供計算程序使用。

基本語句:

using (System.Data.SqlClient.SqlBulkCopy sqlBC

= new System.Data.SqlClient.SqlBulkCopy(conn))

{ sqlBC.BatchSize = 100000; sqlBC.BulkCopyTimeout

= 60; sqlBC.DestinationTableName = "dbo.TableB";

sqlBC.ColumnMappings.Add("valueA", "Value1");

sqlBC.WriteToServer(dt); }

說明:

BatchSize = 100000; 指示每10萬條一個事務並提交

BulkCopyTimeout = 60; 指示60秒按超時處理

DestinationTableName = "dbo.TableB"; 指示將數據導入TableB表

ColumnMappings.Add("valueA", "Value1"); 指示將內存中valueA字段與TableB中的Value1字段匹配

WriteToServer(dt);寫入數據庫。其中dt是預先構建好的DataTable,其中包含valueA字段。

SQL Server 2000耗時:4989

SQL Server 2008耗時:10412

方法五.在多線程中使用SqlBulkCopy類

基於方法四,將100萬條數據分五個線程,每一個線程負責20萬條數據,每5萬條一個事物,五個線程同時啓動,看看這樣的效果吧。

SQL 2000耗時:7682

SQL 2008耗時:10870

結果



幾天的時間終於把這個實驗給完成了,比較使人失望的是SQL SERVER 2008導入數據的性能彷佛並不想咱們想象的那樣優秀。
 轉載自:http://www.chinaz.com/program/2010/0604/117829.shtml#jtss-qzone
相關文章
相關標籤/搜索