談談字符串翻轉

時間 2019-11-16

標籤談談字符串翻轉简体版

原文原文鏈接

題圖來自 Unsplashobjective-c

字符串翻轉做爲算法題已是一個不能再基礎的問題了，無非就是逆序遍歷、雙指針遍歷、遞歸，代碼也能分分鐘寫出來：算法

void strrev(char *str) {
    size_t start = 0;
    size_t end = start + strlen(str) - 1;
    
    while (start < end) {
        char ch = str[start];
        str[start++] = str[end];
        str[end--] = ch;
    }
}
複製代碼

OK，上面的代碼放到 LeetCode 上絕對是能 AC 的，可是實際狀況中能 AC 嗎？答案確定是不能的！一個靠譜的字符串翻轉算法題放到 LeetCode 上至少是 Medium 的難度。swift

首先咱們知道字符串有編碼規則，好比咱們經常使用的 UTF-8，Windows 早期採用的 UTF-16（函數名有 W 後綴的 API 採用這種編碼）等等...對於英文字母等 ASCII 字符的狀況，UTF-8 和 ASCII 編碼都是一個字節，因此上述的方法沒有太大問題。然而對於有中文的狀況，一箇中文字符在 UTF-8 中會佔 3 個字節，若是單純的按字節翻轉就會出現亂碼。函數

那怎麼解決呢？性能

最簡單的方法就是使用 mbstowcs 函數將 char * 類型的字符串轉換爲 wchar_t 類型的寬字符串，wchar_t 這個類型在 Linux、UNIX 系統上佔 4 個字節，在 Windows 上佔 2 個字節。4 個字節意味着字符將用 UTF-32 來編碼，無論是漢字仍是 Emoji 都能存放下來。但對於 2 個字節，也就是 UTF-16，漢字是能表示，可是 Emoji 這類位於輔助平面碼位的字符須要兩個碼元來表示，本文的方法就暫不適用了。測試

首先咱們來看一下改進版的字符串翻轉：ui

static void strrev2(char *str) {
    setlocale(LC_CTYPE, "UTF-8");
    size_t len = mbstowcs(NULL, str, 0);
    wchar_t *wcs = (wchar_t *) calloc(len + 1, sizeof(wchar_t));
    mbstowcs(wcs, str, len + 1);
    
    size_t start = 0;
    size_t end = start + len - 1;
    
    while (start < end) {
        wchar_t wc = wcs[start];
        wcs[start++] = wcs[end];
        wcs[end--] = wc;
    }
    
    wcstombs(str, wcs, wcstombs(NULL, wcs, 0));
    free(wcs);
}
複製代碼

使用 mbstowcs 這類轉換函數首先須要設置字符串的系統編碼，否則函數沒法肯定你傳入的 char * 是個什麼東西，本文中無論是源碼仍是系統環境的 std I/O 都採用 UTF-8 編碼。編碼

接下來咱們調用一次 mbstowcs 不傳入目標地址和字符長度，這可讓函數直接計算所需的 wchar_t 個數並返回回來以便咱們申請內存。spa

而後就是基於 wchar_t 的一個常規字符串翻轉了，最後別忘了轉換回去，釋放內存便可。指針

Bonus: Cocoa 開發中的字符串翻轉

做爲 iOS 開發者，固然還要考慮 OC 中的解決方法了。

方案 1：

經過 API 遍歷子串，而後前向插入到新的 NSMutableString 中。

- (NSString *)my_stringByReversing {
    NSMutableString *reversed = [NSMutableString stringWithCapacity:self.length];
    NSRange range = NSMakeRange(0, self.length);
    [self enumerateSubstringsInRange:range
                             options:NSStringEnumerationByComposedCharacterSequences
                          usingBlock:^(NSString * _Nullable substring, NSRange substringRange,
                                       NSRange enclosingRange, BOOL * _Nonnull stop) {
                              [reversed insertString:substring atIndex:0];
                          }];
    return [reversed copy];
}
複製代碼

這種方法是效果最好的，它會將 Composed Emoji（如 👨‍👩‍👧‍👧）也提取出來，由於這類 Emoji 是由多個 Unicode 字符組合而成的，因此即使是 4 個字節的 wchar_t 也容納不下。但這種方法的弊端就是開銷太大，稍後咱們作一個比較。

方案 2：

經過 API 獲取到 C String，而後用文章開頭所述的方法處理，再從新用處理後的 C String 構造 NSString。

- (NSString *)my_stringByReversing2 {
    NSUInteger length = [self lengthOfBytesUsingEncoding:NSUTF8StringEncoding];
    char *buf = calloc(length + 1, 1);
    [self getCString:buf maxLength:length + 1 encoding:NSUTF8StringEncoding];
    strrev2(buf);
    NSString *reversed = [NSString stringWithCString:buf encoding:NSUTF8StringEncoding];
    free(buf);
    return reversed;
}
複製代碼

這種方法的好處就是高效，經測試，它與遍歷的方法相比有 100 多倍的性能提高，可是問題就是沒法處理複雜的 Emoji。

兩種方法，在使用中須要好好衡量一下。

方案 3：

Swift。Swift 的 String 的基本單位是 Character，它是 Unicode Scalar 的集合，表示了一個可渲染的字符，包括 Composed Emoji。而且，String 是實現了 BidirectionalCollection，擁有 reversed 方法，能夠輕鬆實現字符串翻轉。另外要提醒你們一下，正因爲 Swift 的 String 是基於 Character 的，對於取某個字符這樣的操做，能複用以前的 Index 就複用，我見過不少人喜歡寫

str.index(str.startIndex, offsetBy: i)
複製代碼

這樣是很費性能的，由於 Index 的移動操做須要從起點遍歷計算，用這種方法遍歷一遍字符串的複雜度近似是 O(n!)。

你們有興趣能夠試試 Swift 的性能~

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。