使用多線程查詢百萬條用戶數據將漢字轉化成拼音

時間 2019-12-08

原文原文鏈接

如今有一個需求：用戶表裏面有將近200萬條數據，查詢時須要按用戶名字的漢語拼音按從a-z排序。有兩種解決方案：1.查詢時使用數據庫自帶的CONVERT()函數進行轉化，按拼音首字母排序;2.新加一個拼音字段（spell_name），用戶註冊時，將用戶名字的漢語拼音也一併插入數據庫。權衡以後我採用了第二種，由於用戶量還會持續增加，使用數據庫自帶的函數會拖慢查詢速度，索引也會失效，若是採用第二種加一個拼音字段，就涉及到對原來老數據拼音字段的一個初始化，數據量比較多，使用多線程，在這裏記錄一下。java

1.使用jpinyin和emoji-java將漢字轉化成拼音

引入相關jargit

<!--漢字轉拼音jar-->
		<dependency>
			<groupId>com.github.stuxuhai</groupId>
			<artifactId>jpinyin</artifactId>
			<version>1.0</version>
		</dependency>
		<!--java操做emoji的jar-->
		<dependency>
			<groupId>com.vdurmont</groupId>
			<artifactId>emoji-java</artifactId>
			<version>4.0.0</version>
		</dependency>
複製代碼

emoji表情處理工具類github

public class EmojiDealUtil extends EmojiParser {
    /**
     * 獲取非表情字符串
     * @param input
     * @return
     */
    public static String getNonEmojiString(String input) {
        int prev = 0;
        StringBuilder sb = new StringBuilder();
        List<UnicodeCandidate> replacements = getUnicodeCandidates(input);
        for (UnicodeCandidate candidate : replacements) {
            sb.append(input.substring(prev, candidate.getEmojiStartIndex()));
            prev = candidate.getFitzpatrickEndIndex();
        }
        return sb.append(input.substring(prev)).toString();
    }

    /**
     * 獲取表情字符串
     * @param input
     * @return
     */
    public static String getEmojiUnicodeString(String input){
        EmojiTransformer  transformer = new EmojiTransformer() {
            public String transform(UnicodeCandidate unicodeCandidate) {
                return unicodeCandidate.getEmoji().getHtmlHexadecimal();
            }
        };
        StringBuilder sb = new StringBuilder();
        List<UnicodeCandidate> replacements = getUnicodeCandidates(input);
        for (UnicodeCandidate candidate : replacements) {
            sb.append(transformer.transform(candidate));
        }
        return  parseToUnicode(sb.toString());
    }

    public static String getUnicode(String source){
        String returnUniCode=null;
        String uniCodeTemp=null;
        for(int i=0;i<source.length();i++){
            uniCodeTemp = "\\u"+Integer.toHexString((int)source.charAt(i));
            returnUniCode=returnUniCode==null?uniCodeTemp:returnUniCode+uniCodeTemp;
        }
        return returnUniCode;
    }
}
複製代碼

漢字轉換成拼音的工具類數據庫

public class ChineseToPinYinUtil {

    /**
     * 轉換爲不帶音調的拼音字符串
     * @param pinYinStr 需轉換的漢字
     * @return 拼音字符串
     */
    public static String changeToTonePinYin(String pinYinStr) {
        String tempStr = null;
        try {
            tempStr = PinyinHelper.convertToPinyinString(pinYinStr, " ", PinyinFormat.WITHOUT_TONE);
        } catch (Exception e) {
            e.printStackTrace();
        }
        return tempStr;
    }
}
複製代碼

拼音轉換不作爲本文點，網上搜下有不少庫和代碼解決，主要說下面的多線程處理。bash

2.使用多線程查詢並更新數據庫

建立初始容量爲5的線程池，每次每一個線程查詢500條記錄並處理，加個同步鎖，分配給每一個線程它查詢的起始記錄，查詢出記錄以後調用上面的漢字轉換成拼音方法處理，完畢以後更新到數據庫。多線程

2.1接收請求方法

//每一個線程每次查詢的條數
    private static final Integer LIMIT = 500;
    //起的線程數
    private static final Integer THREAD_NUM = 5;
    ThreadPoolExecutor pool = new ThreadPoolExecutor(THREAD_NUM, THREAD_NUM*2,0,TimeUnit.SECONDS,new LinkedBlockingQueue<>(100));
    
    @GetMapping("/chineseToSpellName")
    public void execute(){
        //計數器,一次轉換隻能一個請求調，否則會出錯
        int count = 0;
        logger.info("trans start");
        //查詢總記錄數
        int total = userService.getTotalCount2();
        logger.info("total num:{}",total);
        int num = total/(LIMIT*THREAD_NUM) + 1;
        logger.info("要通過的輪數：{}",num);
        for(int j=0;j<num;j++){
            //起 THREAD_NUM 個線程並行查詢更新庫，加鎖
            for(int i=0;i<THREAD_NUM;i++){
                synchronized(ChineseToPinYinController.class){
                    int start = count*LIMIT;
                    count++;
                    pool.submit(new TransTask(start,LIMIT));
                }
            }
        }
    }
複製代碼

2.2多線程處理業務方法

class TransTask implements Runnable{
        int start;
        int limit;
        public TransTask(int start, int limit) {
            this.start = start;
            this.limit = limit;
        }

        @Override
        public void run() {
            //查詢記錄並更新數據庫
            List<User> userList =  userService.getList2(start,limit);
            logger.info("更新記錄起始位置：{}--{}",start,limit);
            if(!CollectionUtils.isEmpty(userList)){
                userList.stream().forEach(u -> {
                    u.setSpellName(ChineseToPinYinUtil.changeToTonePinYin(EmojiDealUtil.getNonEmojiString(u.getName())).trim());
                    userService.updateUser2(u);
                }
             );
            }
        }
    }
複製代碼

3.不使用傳統的limit分頁查詢數據

userService.getList2(start,num)是根據起始位置和查詢條數查詢記錄，之前咱們寫的分頁查詢通常是這樣寫的：select * from table limit start,num（如：select * from user limit 0,20）。這種查詢在數據量小時沒有問題，可是數據量大的時候查詢會很是慢，由於它走的不是索引，而是全表掃描，數據量越大，越到後面速度越慢。對於id是自增加的查詢能夠採用另外一種查詢方式，select * from table where id>start limit num(如：select * from user where id>1000 limit 20)，從指定id查詢num條記錄。這種查詢即便到百萬級數據量，查詢速度也不會明顯變慢，由於走的是主鍵索引，而不是全表掃描。app

4.優化後記

代碼寫完以後在實際使用中，數據初始化到70多萬條的時候，數據庫鏈接數開的太多，將數據庫裏面的所有佔滿了，考慮再次優化，採用分段的方式，傳入兩個參數，初始化記錄和初始化條數。好比第一次初始化0-10萬條記錄，第二次初始化10到20萬條記錄，依次類推，這樣的好處是能夠人工干預，即便出錯，也能夠只運行出錯的這部分區間數據，代碼以下：ide

//每一個線程每次查詢的條數
    private static final Integer LIMIT = 500;
    //起的線程數
    private static final Integer THREAD_NUM = 5;
    ThreadPoolExecutor pool = new ThreadPoolExecutor(THREAD_NUM,Integer.MAX_VALUE,0,TimeUnit.SECONDS,
            new ArrayBlockingQueue<>(10));

    @GetMapping("/chineseToSpellName")
    public void execute(@RequestParam("startId") Integer startId,@RequestParam("total") Integer total){
        logger.info("trans start");
        int num = total/(LIMIT*THREAD_NUM) + 1;
        logger.info("要通過的輪數：{}",num);
        for(int j=0;j<num;j++){
            //起 THREAD_NUM 個線程並行查詢更新庫，加鎖
            for(int i=0;i<THREAD_NUM;i++){
                synchronized(ChineseToPinYinController.class){
                    pool.submit(new TransTask(startId,LIMIT));
                    startId+=LIMIT;
                }
            }
        }
    }

    class TransTask implements Runnable{
        int start;
        int limit;
        public TransTask(int start, int limit) {
            this.start = start;
            this.limit = limit;
        }

        @Override
        public void run() {
            //查詢記錄並更新數據庫
            List<User> userList =  userService.getList2(start,limit);
            logger.info("更新記錄起始位置：{}--{}",start,limit);
            if(!CollectionUtils.isEmpty(userList)){
                userList.stream().forEach(u -> {
                    u.setSpellName(ChineseToPinYinUtil.changeToTonePinYin(EmojiDealUtil.getNonEmojiString(u.getName())).trim());
                    userService.updateUser2(u);
                }
             );
            }
        }
    }
複製代碼