判斷一個字符串是否包含某個特定子串是常見的場景,好比判斷一篇文章是否包含敏感詞彙、判斷日誌是否有ERROR
信息等。本文將介紹四種方法並進行性能測試。java
在String
的函數中,提供了indexOf(subStr)
方法,返回子串subStr
第一次出現的位置,若是不存在則返回-1。例子以下:函數
//包含Java assertEquals(7, "Pkslow Java".indexOf("Java")); //若是包含多個,返回第一次出現位置 assertEquals(0, "Java Java".indexOf("Java")); //大小寫敏感 assertEquals(-1, "Google Guava".indexOf("guava"));
最直觀判斷的方法是contains(subStr)
,返回類型爲boolean
,若是包含返回true
,不包含則返回false
。例子以下:工具
//包含Java assertTrue("code in Java".contains("Java")); //大小寫敏感,不包含GO assertFalse("Let's go".contains("GO")); //轉爲大寫後包含 assertTrue("Let's go".toUpperCase().contains("GO"));
實際上,String
的contains
方法是經過調用indexOf
方法來判斷的,源碼以下:性能
public boolean contains(CharSequence s) { return indexOf(s.toString()) > -1; }
經過強大的正則匹配來判斷,雖然有點殺雞用牛刀的感受,但也不是不能用,例子以下:測試
Pattern pattern = Pattern.compile("Java"); //包含Java Matcher matcher1 = pattern.matcher("Python, Java, Go, C++"); assertTrue(matcher1.find()); //不包含Java Matcher matcher2 = pattern.matcher("Python, C, Go, Matlab"); assertFalse(matcher2.find());
Apache的commons-lang3
提供許多開箱即用的功能,StringUtils
就提供了許多與字符串相關的功能,例子以下:ui
//包含sub assertTrue(StringUtils.contains("String subString", "sub")); //大小寫敏感 assertFalse(StringUtils.contains("This is Java", "java")); //忽略大小寫 assertTrue(StringUtils.containsIgnoreCase("This is Java", "java"));
咱們使用JMH
工具來對四種方法進行性能測試,Maven
引入代碼以下:spa
<dependency> <groupId>org.openjdk.jmh</groupId> <artifactId>jmh-core</artifactId> <version>${openjdk.jmh.version}</version> </dependency> <dependency> <groupId>org.openjdk.jmh</groupId> <artifactId>jmh-generator-annprocess</artifactId> <version>${openjdk.jmh.version}</version> </dependency>
測試代碼以下:日誌
@BenchmarkMode(Mode.AverageTime) @OutputTimeUnit(TimeUnit.NANOSECONDS) public class StringContainsPerformanceTest { @State(Scope.Thread) public static class MyState { private String text = "If you want to be smart; read. If you want to be really smart; read a lot."; Pattern pattern = Pattern.compile("read"); } @Benchmark public int indexOf(MyState state) { return state.text.indexOf("read"); } @Benchmark public boolean contains(MyState state) { return state.text.contains("read"); } @Benchmark public boolean stringUtils(MyState state) { return StringUtils.contains(state.text, "read"); } @Benchmark public boolean pattern(MyState state) { return state.pattern.matcher(state.text).find(); } public static void main(String[] args) throws Exception { Options options = new OptionsBuilder() .include(StringContainsPerformanceTest.class.getSimpleName()) .threads(6) .forks(1) .warmupIterations(3) .measurementIterations(6) .shouldFailOnError(true) .shouldDoGC(true) .build(); new Runner(options).run(); } }
測試結果以下:code
Benchmark Mode Cnt Score Error Units contains avgt 6 11.331 ± 1.435 ns/op indexOf avgt 6 11.250 ± 1.822 ns/op pattern avgt 6 101.196 ± 12.047 ns/op stringUtils avgt 6 29.046 ± 3.873 ns/op
最快的就是indexOf
方法,其次是contains
方法,兩者應該沒有實際區別,contains
是調用indexOf
來實現的。Apache的StringUtils
爲第三方庫,相對慢一些。最慢的是使用了正則的Pattern
的方法,這不難理解,正則引擎的匹配是比較耗性能的。orm
本文介紹了判斷一個字符串是否包含某個特定子串的四種方法,並經過性能測試進行了對比。其中性能最好的是String的indexOf
方法和contains
方法,建議使用contains
方法,性能好,跟indexOf
相比,更直觀,更不容易犯錯。畢竟讓每一個人時刻記住返回-1
表明不存在也不是一件容易的事。
可是,使用indexOf
和contains
方法都須要注意作判空處理,這時StringUtils
的優點就體現出來了。
歡迎關注公衆號<南瓜慢說>,將持續爲你更新...
多讀書,多分享;多寫做,多整理。