如今有一個需求:用戶表裏面有將近200萬條數據,查詢時須要按用戶名字的漢語拼音按從a-z排序。有兩種解決方案:1.查詢時使用數據庫自帶的CONVERT()函數進行轉化,按拼音首字母排序;2.新加一個拼音字段(spell_name),用戶註冊時,將用戶名字的漢語拼音也一併插入數據庫。權衡以後我採用了第二種,由於用戶量還會持續增加,使用數據庫自帶的函數會拖慢查詢速度,索引也會失效,若是採用第二種加一個拼音字段,就涉及到對原來老數據拼音字段的一個初始化,數據量比較多,使用多線程,在這裏記錄一下。java
引入相關jargit
<!--漢字轉拼音jar-->
<dependency>
<groupId>com.github.stuxuhai</groupId>
<artifactId>jpinyin</artifactId>
<version>1.0</version>
</dependency>
<!--java操做emoji的jar-->
<dependency>
<groupId>com.vdurmont</groupId>
<artifactId>emoji-java</artifactId>
<version>4.0.0</version>
</dependency>
複製代碼
emoji表情處理工具類github
public class EmojiDealUtil extends EmojiParser {
/**
* 獲取非表情字符串
* @param input
* @return
*/
public static String getNonEmojiString(String input) {
int prev = 0;
StringBuilder sb = new StringBuilder();
List<UnicodeCandidate> replacements = getUnicodeCandidates(input);
for (UnicodeCandidate candidate : replacements) {
sb.append(input.substring(prev, candidate.getEmojiStartIndex()));
prev = candidate.getFitzpatrickEndIndex();
}
return sb.append(input.substring(prev)).toString();
}
/**
* 獲取表情字符串
* @param input
* @return
*/
public static String getEmojiUnicodeString(String input){
EmojiTransformer transformer = new EmojiTransformer() {
public String transform(UnicodeCandidate unicodeCandidate) {
return unicodeCandidate.getEmoji().getHtmlHexadecimal();
}
};
StringBuilder sb = new StringBuilder();
List<UnicodeCandidate> replacements = getUnicodeCandidates(input);
for (UnicodeCandidate candidate : replacements) {
sb.append(transformer.transform(candidate));
}
return parseToUnicode(sb.toString());
}
public static String getUnicode(String source){
String returnUniCode=null;
String uniCodeTemp=null;
for(int i=0;i<source.length();i++){
uniCodeTemp = "\\u"+Integer.toHexString((int)source.charAt(i));
returnUniCode=returnUniCode==null?uniCodeTemp:returnUniCode+uniCodeTemp;
}
return returnUniCode;
}
}
複製代碼
漢字轉換成拼音的工具類數據庫
public class ChineseToPinYinUtil {
/**
* 轉換爲不帶音調的拼音字符串
* @param pinYinStr 需轉換的漢字
* @return 拼音字符串
*/
public static String changeToTonePinYin(String pinYinStr) {
String tempStr = null;
try {
tempStr = PinyinHelper.convertToPinyinString(pinYinStr, " ", PinyinFormat.WITHOUT_TONE);
} catch (Exception e) {
e.printStackTrace();
}
return tempStr;
}
}
複製代碼
拼音轉換不作爲本文點,網上搜下有不少庫和代碼解決,主要說下面的多線程處理。bash
建立初始容量爲5的線程池,每次每一個線程查詢500條記錄並處理,加個同步鎖,分配給每一個線程它查詢的起始記錄,查詢出記錄以後調用上面的漢字轉換成拼音方法處理,完畢以後更新到數據庫。多線程
//每一個線程每次查詢的條數
private static final Integer LIMIT = 500;
//起的線程數
private static final Integer THREAD_NUM = 5;
ThreadPoolExecutor pool = new ThreadPoolExecutor(THREAD_NUM, THREAD_NUM*2,0,TimeUnit.SECONDS,new LinkedBlockingQueue<>(100));
@GetMapping("/chineseToSpellName")
public void execute(){
//計數器,一次轉換隻能一個請求調,否則會出錯
int count = 0;
logger.info("trans start");
//查詢總記錄數
int total = userService.getTotalCount2();
logger.info("total num:{}",total);
int num = total/(LIMIT*THREAD_NUM) + 1;
logger.info("要通過的輪數:{}",num);
for(int j=0;j<num;j++){
//起 THREAD_NUM 個線程並行查詢更新庫,加鎖
for(int i=0;i<THREAD_NUM;i++){
synchronized(ChineseToPinYinController.class){
int start = count*LIMIT;
count++;
pool.submit(new TransTask(start,LIMIT));
}
}
}
}
複製代碼
class TransTask implements Runnable{
int start;
int limit;
public TransTask(int start, int limit) {
this.start = start;
this.limit = limit;
}
@Override
public void run() {
//查詢記錄並更新數據庫
List<User> userList = userService.getList2(start,limit);
logger.info("更新記錄起始位置:{}--{}",start,limit);
if(!CollectionUtils.isEmpty(userList)){
userList.stream().forEach(u -> {
u.setSpellName(ChineseToPinYinUtil.changeToTonePinYin(EmojiDealUtil.getNonEmojiString(u.getName())).trim());
userService.updateUser2(u);
}
);
}
}
}
複製代碼
userService.getList2(start,num)是根據起始位置和查詢條數查詢記錄,之前咱們寫的分頁查詢通常是這樣寫的:select * from table limit start,num(如:select * from user limit 0,20)。這種查詢在數據量小時沒有問題,可是數據量大的時候查詢會很是慢,由於它走的不是索引,而是全表掃描,數據量越大,越到後面速度越慢。對於id是自增加的查詢能夠採用另外一種查詢方式,select * from table where id>start limit num(如:select * from user where id>1000 limit 20),從指定id查詢num條記錄。這種查詢即便到百萬級數據量,查詢速度也不會明顯變慢,由於走的是主鍵索引,而不是全表掃描。app
代碼寫完以後在實際使用中,數據初始化到70多萬條的時候,數據庫鏈接數開的太多,將數據庫裏面的所有佔滿了,考慮再次優化,採用分段的方式,傳入兩個參數,初始化記錄和初始化條數。好比第一次初始化0-10萬條記錄,第二次初始化10到20萬條記錄,依次類推,這樣的好處是能夠人工干預,即便出錯,也能夠只運行出錯的這部分區間數據,代碼以下:ide
//每一個線程每次查詢的條數
private static final Integer LIMIT = 500;
//起的線程數
private static final Integer THREAD_NUM = 5;
ThreadPoolExecutor pool = new ThreadPoolExecutor(THREAD_NUM,Integer.MAX_VALUE,0,TimeUnit.SECONDS,
new ArrayBlockingQueue<>(10));
@GetMapping("/chineseToSpellName")
public void execute(@RequestParam("startId") Integer startId,@RequestParam("total") Integer total){
logger.info("trans start");
int num = total/(LIMIT*THREAD_NUM) + 1;
logger.info("要通過的輪數:{}",num);
for(int j=0;j<num;j++){
//起 THREAD_NUM 個線程並行查詢更新庫,加鎖
for(int i=0;i<THREAD_NUM;i++){
synchronized(ChineseToPinYinController.class){
pool.submit(new TransTask(startId,LIMIT));
startId+=LIMIT;
}
}
}
}
class TransTask implements Runnable{
int start;
int limit;
public TransTask(int start, int limit) {
this.start = start;
this.limit = limit;
}
@Override
public void run() {
//查詢記錄並更新數據庫
List<User> userList = userService.getList2(start,limit);
logger.info("更新記錄起始位置:{}--{}",start,limit);
if(!CollectionUtils.isEmpty(userList)){
userList.stream().forEach(u -> {
u.setSpellName(ChineseToPinYinUtil.changeToTonePinYin(EmojiDealUtil.getNonEmojiString(u.getName())).trim());
userService.updateUser2(u);
}
);
}
}
}
複製代碼