溫故而知新
知識這個東西,看來真的要溫故而知新,一直不用,都要忘記了。mysql
業務很簡單:須要批量插入一些數據,數據來源多是其餘數據庫的表,也多是一個外部excel的導入。sql
那麼問題來了,是否是每次插入以前都要查一遍,看看重不重複,在代碼裏篩選一下數據,重複的就過濾掉呢?數據庫
向大數據數據庫中插入值時,還要判斷插入是否重複,而後插入。如何提升效率?大數據
看來這個問題不止我一我的苦惱過。spa
解決的辦法有不少種,不一樣的場景解決方案也不同,數據量很小的狀況下,怎麼搞都行,可是數據量很大的時候,這就不是一個簡單的問題了excel
幾百萬的數據,不可能查出來去重處理!code
說一下我Google到的解決方案。blog
一、insert ignore into
當插入數據時,如出現錯誤時,如重複數據,將不返回錯誤,只以警告形式返回。因此使用ignore請確保語句自己沒有問題,不然也會被忽略掉。例如:
INSERT IGNORE INTO user (name) VALUES ('telami')
這種方法很簡便,可是有一種可能,就是插入不是由於重複數據報錯,而是由於其餘緣由報錯的,也一樣被忽略了~
二、on duplicate key update
當primary或者unique重複時,則執行update語句,如update後爲無用語句,如id=id,則同1功能相同,但錯誤不會被忽略掉。it
例如,爲了實現name重複的數據插入不報錯,可以使用一下語句:io
INSERT INTO user (name) VALUES ('telami') ON duplicate KEY UPDATE id = id
這種方法有個前提條件,就是,須要插入的約束,須要是主鍵或者惟一約束(在你的業務中那個要做爲惟一的判斷就將那個字段設置爲惟一約束也就是unique key)。
三、insert … select … where not exist
根據select的條件判斷是否插入,能夠不光經過primary 和unique來判斷,也可經過其它條件。例如:
INSERT INTO user (name) SELECT 'telami' FROM dual WHERE NOT EXISTS (SELECT id FROM user WHERE id = 1)
這種方法其實就是使用了mysql的一個臨時表的方式,可是裏面使用到了子查詢,效率也會有一點點影響,若是能使用上面的就不使用這個。
四、replace into
若是存在primary or unique相同的記錄,則先刪除掉。再插入新記錄。
REPLACE INTO user SELECT 1, 'telami' FROM books
這種方法就是無論原來有沒有相同的記錄,都會先刪除掉而後再插入。
實踐
選擇的是第二種方式
<insert id="batchSaveUser" parameterType="list"> insert into user (id,username,mobile_number) values <foreach collection="list" item="item" index="index" separator=","> ( #{item.id}, #{item.username}, #{item.mobileNumber} ) </foreach> ON duplicate KEY UPDATE id = id </insert>
這裏用的是Mybatis,批量插入的一個操做,mobile_number已經加了惟一約束。這樣在批量插入時,若是存在手機號相同的話,是不會再插入了的。