Go 中 slice 的 In 功能實現探索

時間 2019-11-07

標籤 slice 功能實現探索简体版

原文原文鏈接

本文首發於個人博客，若是以爲有用，歡迎點贊收藏。python

以前在知乎看到一個問題：爲何 Golang 沒有像 Python 中 in 同樣的功能？因而，搜了下這個問題，發現仍是有很多人有這樣的疑問。git

今天來談談這個話題。github

in 是一個很經常使用的功能，有些語言中可能也稱爲 contains，雖然不一樣語言的表示不一樣，但基本都是有的。不過惋惜的是，Go 卻沒有，它即沒有提供相似 Python 操做符 in，也沒有像其餘語言那樣提供這樣的標準庫函數，如 PHP 中 in_array。算法

Go 的哲學是追求少便是多。我想或許 Go 團隊以爲這是一個實現起來不足爲道的功能吧。數組

爲什麼說微不足道？若是要本身實現，又該如何作呢？bash

我所想到的有三種實現方式，一是遍歷，二是 sort 的二分查找，三是 map 的 key 索引。微信

本文相關源碼已經上傳在個人 github 上，poloxue/gotin。dom

遍歷

遍歷應該是咱們最容易想到的最簡單的實現方式。函數

示例以下：性能

func InIntSlice(haystack []int, needle int) bool {
	for _, e := range haystack {
		if e == needle {
			return true
		}
	}

	return false
}
複製代碼

上面演示瞭如何在一個 []int 類型變量中查找指定 int 是否存在的例子，是否是很是簡單，由此咱們也能夠感覺到我爲何說它實現起來微不足道。

這個例子有個缺陷，它只支持單一類型。若是要支持像解釋語言同樣的通用 in 功能，則需藉助反射實現。

代碼以下：

func In(haystack interface{}, needle interface{}) (bool, error) {
	sVal := reflect.ValueOf(haystack)
	kind := sVal.Kind()
	if kind == reflect.Slice || kind == reflect.Array {
		for i := 0; i < sVal.Len(); i++ {
			if sVal.Index(i).Interface() == needle {
				return true, nil
			}
		}

		return false, nil
	}

	return false, ErrUnSupportHaystack
}
複製代碼

爲了更加通用，In 函數的輸入參數 haystack 和 needle 都是 interface{} 類型。

簡單說說輸入參數都是 interface{} 的好處吧，主要有兩點，以下：

其一，haystack 是 interface{} 類型，使 in 支持的類型不止於 slice，還包括 array。咱們看到，函數內部經過反射對 haystack 進行了類型檢查，支持 slice（切片）與 array（數組）。若是是其餘類型則會提示錯誤，增長新的類型支持，如 map，其實也很簡單。但不推薦這種方式，由於經過 _, ok := m[k] 的語法便可達到 in 的效果。

其二，haystack 是 interface{}，則 []interface{} 也知足要求，而且 needle 是 interface{}。如此一來，咱們就能夠實現相似解釋型語言同樣的效果了。

怎麼理解？直接示例說明，以下：

gotin.In([]interface{}{1, "two", 3}, "two")
複製代碼

haystack 是 []interface{}{1, "two", 3}，並且 needle 是 interface{}，此時的值是 "two"。如此看起來，是否是實現瞭解釋型語言中，元素能夠是任意類型，沒必要徹底相同效果。如此一來，咱們就能夠肆意妄爲的使用了。

但有一點要說明，In 函數的實現中有這樣一段代碼：

if sVal.Index(i).Interface() == needle {
	...
}
複製代碼

Go 中並不是任何類型均可以使用 == 比較的，若是元素中含有 slice 或 map，則可能會報錯。

二分查找

以遍歷確認元素是否存在有個缺點，那就是，若是數組或切片中包含了大量數據，好比 1000000 條數據，即一百萬，最壞的狀況是，咱們要遍歷 1000000 次才能確認，時間複雜度 On。

有什麼辦法能夠下降遍歷次數？

天然而然地想到的方法是二分查找，它的時間複雜度 log2(n) 。但這個算法有前提，須要依賴有序序列。

因而，第一個要咱們解決的問題是使序列有序，Go 的標準庫已經提供了這個功能，在 sort 包下。

示例代碼以下：

fmt.Println(sort.SortInts([]int{4, 2, 5, 1, 6}))
複製代碼

對於 []int，咱們使用的函數是 SortInts，若是是其餘類型切片，sort 也提供了相關的函數，好比 []string 可經過 SortStrings 排序。

完成排序就能夠進行二分查找，幸運的是，這個功能 Go 也提供了，[]int 類型對應函數是 SearchInts。

簡單介紹下這個函數，先看定義：

func SearchInts(a []int, x int) int 複製代碼

輸入參數容易理解，從切片 a 中搜索 x。重點要說下返回值，這對於咱們後面確認元素是否存在相當重要。返回值的含義，返回查找元素在切片中的位置，若是元素不存在，則返回，在保持切片有序狀況下，插入該元素應該在什麼位置。

好比，序列以下：

1 2 6 8 9 11
複製代碼

假設，x 爲 6，查找以後將發現它的位置在索引 2 處；x 若是是 7，發現不存在該元素，若是插入序列，將會放在 6 和 8 之間，索引位置是 3，於是返回值爲 3。

代碼測試下：

fmt.Println(sort.SearchInts([]int{1, 2, 6, 8, 9, 11}, 6)) // 2
fmt.Println(sort.SearchInts([]int{1, 2, 6, 8, 9, 11}, 7)) // 3
複製代碼

若是判斷元素是否在序列中，只要判斷返回位置上的值是否和查找的值相同便可。

但還有另一種狀況，若是插入元素位於序列最後，例如元素值爲 12，插入位置即爲序列的長度 6。若是直接查找 6 位置上的元素就可能發生越界的狀況。那怎麼辦呢？其實判斷返回是否小於切片長度便可，小於則說明元素在切片序列中。

完整的實現代碼以下：

func SortInIntSlice(haystack []int, needle int) bool {
	sort.Ints(haystack)

	index := sort.SearchInts(haystack, needle)
	return index < len(haystack) && haystack[index] == needle
}
複製代碼

但這還有個問題，對於無序的場景，若是每次查詢都要通過一次排序並不划算。最好能實現一次排序，稍微修改下代碼。

func InIntSliceSortedFunc(haystack []int) func(int) bool {
	sort.Ints(haystack)

	return func(needle int) bool {
		index := sort.SearchInts(haystack, needle)
		return index < len(haystack) && haystack[index] == needle
	}
}
複製代碼

上面的實現，咱們經過調用 InIntSliceSortedFunc 對 haystack 切片排序，並返回一個可屢次使用的函數。

使用案例以下：

in := gotin.InIntSliceSortedFunc(haystack)

for i := 0; i<maxNeedle; i++ {
	if in(i) {
		fmt.Printf("%d is in %v", i, haystack)
	}
}
複製代碼

二分查找的方式有什麼不足呢？

我想到的重要一點，要實現二分查找，元素必須是可排序的，如 int，string，float 類型。而對於結構體、切片、數組、映射等類型，使用起來就不是那麼方便，固然，若是要用，也是能夠的，不過須要咱們進行一些適當擴展，按指定標準排序，好比結構的某個成員。

到此，二分查找的 in 實現就介紹完畢了。

map key

本節介紹 map key 方式。它的算法複雜度是 O1，不管數據量多大，查詢性能始終不變。它主要依賴的是 Go 中的 map 數據類型，經過 hash map 直接檢查 key 是否存在，算法你們應該都比較熟悉，經過 key 可直接映射到索引位置。

咱們常會用到這個方法。

_, ok := m[k]
if ok {
	fmt.Println("Found")
}
複製代碼

那麼它和 in 如何結合呢？一個案例就說明白了這個問題。

假設，咱們有一個 []int 類型變量，以下：

s := []int{1, 2, 3}
複製代碼

爲了使用 map 的能力檢查某個元素是否存在，能夠將 s 轉化 map[int]struct{}。

m := map[interface{}]struct{}{
	1: struct{}{},
	2: struct{}{},
	3: struct{}{},
	4: struct{}{},
}
複製代碼

若是檢查某個元素是否存在，只須要經過以下寫法便可肯定：

k := 4
if _, ok := m[k]; ok {
	fmt.Printf("%d is found\n", k)
}
複製代碼

是否是很是簡單？

補充一點，關於這裏爲何使用 struct{}，能夠閱讀我以前寫的一篇關於 Go 中如何使用 set 的文章。

按照這個思路，實現函數以下：

func MapKeyInIntSlice(haystack []int, needle int) bool {
	set := make(map[int]struct{})

	for _ , e := range haystack {
		set[e] = struct{}{}
	}

	_, ok := set[needle]
	return ok
}
複製代碼

實現起來不難，但和二分查找有着一樣的問題，開始要作數據處理，將 slice 轉化爲 map。若是是每次數據相同，稍微修改下它的實現。

func InIntSliceMapKeyFunc(haystack []int) func(int) bool {
	set := make(map[int]struct{})

	for _ , e := range haystack {
		set[e] = struct{}{}
	}

	return func(needle int) bool {
		_, ok := set[needle]
		return ok
	}
}
複製代碼

對於相同的數據，它會返回一個可屢次使用的 in 函數，一個使用案例以下：

in := gotin.InIntSliceMapKeyFunc(haystack)

for i := 0; i<maxNeedle; i++ {
	if in(i) {
		fmt.Printf("%d is in %v", i, haystack)
	}
}
複製代碼

對比前兩種算法，這種方式的處理效率最高，很是適合於大數據的處理。接下來的性能測試，咱們將會看到效果。

性能

介紹完全部方式，咱們來實際對比下每種算法的性能。測試源碼位於 gotin_test.go 文件中。

基準測試主要是從數據量大小考察不一樣算法的性能，本文中選擇了三個量級的測試樣本數據，分別是十、1000、1000000。

爲便於測試，首先定義了一個用於生成 haystack 和 needle 樣本數據的函數。

代碼以下：

func randomHaystackAndNeedle(size int) ([]int, int){
	haystack := make([]int, size)

	for i := 0; i<size ; i++{
		haystack[i] = rand.Int()
	}

	return haystack, rand.Int()
}
複製代碼

輸入參數是 size，經過 rand.Int() 隨機生成切片大小爲 size 的 haystack 和 1 個 needle。在基準測試用例中，引入這個隨機函數生成數據便可。

舉個例子，以下：

func BenchmarkIn_10(b *testing.B) {
	haystack, needle := randomHaystackAndNeedle(10)

	b.ResetTimer()
	for i := 0; i < b.N; i++ {
		_, _ = gotin.In(haystack, needle)
	}
}
複製代碼

首先，經過 randomHaystackAndNeedle 隨機生成了一個含有 10 個元素的切片。由於生成樣本數據的時間不該該計入到基準測試中，咱們使用 b.ResetTimer() 重置了時間。

其次，壓測函數是按照 Test+函數名+樣本數據量 規則編寫，如案例中 BenchmarkIn_10，表示測試 In 函數，樣本數據量爲 10。若是咱們要用 1000 數據量測試 InIntSlice，壓測函數名爲 BenchmarkInIntSlice_1000。

測試開始吧！簡單說下個人筆記本配置，Mac Pro 15 版，16G 內存，512 SSD，4 核 8 線程的 CPU。

測試全部函數在數據量在 10 的狀況下的表現。

$ go test -run=none -bench=10$ -benchmem
複製代碼

匹配全部以 10 結尾的壓測函數。

測試結果：

goos: darwin
goarch: amd64
pkg: github.com/poloxue/gotin
BenchmarkIn_10-8                         3000000               501 ns/op             112 B/op         11 allocs/op
BenchmarkInIntSlice_10-8                200000000                7.47 ns/op            0 B/op          0 allocs/op
BenchmarkInIntSliceSortedFunc_10-8      100000000               22.3 ns/op             0 B/op          0 allocs/op
BenchmarkSortInIntSlice_10-8            10000000               162 ns/op              32 B/op          1 allocs/op
BenchmarkInIntSliceMapKeyFunc_10-8      100000000               17.7 ns/op             0 B/op          0 allocs/op
BenchmarkMapKeyInIntSlice_10-8           3000000               513 ns/op             163 B/op          1 allocs/op
PASS
ok      github.com/poloxue/gotin        13.162s
複製代碼

表現最好的並不是 SortedFunc 和 MapKeyFunc，而是最簡單的針對單類型的遍歷查詢，平均耗時 7.47ns/op，固然，另外兩種方式表現也不錯，分別是 22.3ns/op 和 17.7ns/op。

表現最差的是 In、SortIn（每次重複排序）和 MapKeyIn（每次重複建立 map）兩種方式，平均耗時分別爲 501ns/op 和 513ns/op。

測試全部函數在數據量在 1000 的狀況下的表現。

$ go test -run=none -bench=1000$ -benchmem
複製代碼

測試結果：

goos: darwin
goarch: amd64
pkg: github.com/poloxue/gotin
BenchmarkIn_1000-8                         30000             45074 ns/op            8032 B/op       1001 allocs/op
BenchmarkInIntSlice_1000-8               5000000               313 ns/op               0 B/op          0 allocs/op
BenchmarkInIntSliceSortedFunc_1000-8    30000000                44.0 ns/op             0 B/op          0 allocs/op
BenchmarkSortInIntSlice_1000-8             20000             65401 ns/op              32 B/op          1 allocs/op
BenchmarkInIntSliceMapKeyFunc_1000-8    100000000               17.6 ns/op             0 B/op          0 allocs/op
BenchmarkMapKeyInIntSlice_1000-8           20000             82761 ns/op           47798 B/op         65 allocs/op
PASS
ok      github.com/poloxue/gotin        11.312s
複製代碼

表現前三依然是 InIntSlice、InIntSliceSortedFunc 和 InIntSliceMapKeyFunc，但此次順序發生了變化，MapKeyFunc 表現最好，17.6 ns/op，與數據量 10 的時候相比基本無變化。再次驗證了前文的說法。

一樣的，數據量 1000000 的時候。

$ go test -run=none -bench=1000000$ -benchmem
複製代碼

測試結果以下：

goos: darwin
goarch: amd64
pkg: github.com/poloxue/gotin
BenchmarkIn_1000000-8                                 30          46099678 ns/op         8000098 B/op    1000001 allocs/op
BenchmarkInIntSlice_1000000-8                       3000            424623 ns/op               0 B/op          0 allocs/op
BenchmarkInIntSliceSortedFunc_1000000-8         20000000                72.8 ns/op             0 B/op          0 allocs/op
BenchmarkSortInIntSlice_1000000-8                     10         138873420 ns/op              32 B/op          1 allocs/op
BenchmarkInIntSliceMapKeyFunc_1000000-8         100000000               16.5 ns/op             0 B/op          0 allocs/op
BenchmarkMapKeyInIntSlice_1000000-8                   10         156215889 ns/op        49824225 B/op      38313 allocs/op
PASS
ok      github.com/poloxue/gotin        15.178s
複製代碼

MapKeyFunc 依然表現最好，每次操做用時 17.2 ns，Sort 次之，而 InIntSlice 呈現線性增長的趨勢。通常狀況下，若是不是對性能要特殊要求，數據量特別大的場景，針對單類型的遍歷已經有很是好的性能了。

從測試結果能夠看出，反射實現的通用 In 函數每次執行須要進行大量的內存分配，方便的同時，也是以犧牲性能爲代價的。