Java 集合看這一篇就夠了

時間 2020-10-16

標籤 html java git 程序員 github 面試算法 api 數組安全欄目 Java 简体版

原文原文鏈接

你們好，這裏是《齊姐聊數據結構》系列之大集合。html

話很少說，直接上圖：java

Java 集合，也稱做容器，主要是由兩大接口 (Interface) 派生出來的：
Collection 和 Mapgit

顧名思義，容器就是用來存放數據的。程序員

那麼這兩大接口的不一樣之處在於：github

Collection 存放單一元素；
Map 存放 key-value 鍵值對。

就是單身狗放 Collection 裏面，couple 就放 Map 裏。（因此你屬於哪裏？面試

學習這些集合框架，我認爲有 4 個目標：算法

明確每一個接口和類的對應關係；
對每一個接口和類，熟悉經常使用的 API；
對不一樣的場景，可以選擇合適的數據結構並分析優缺點；
學習源碼的設計，面試要會答啊。

關於 Map，以前那篇 HashMap 的文章已經講的很是透徹詳盡了，因此本文再也不贅述。若是還沒看過那篇文章的小夥伴，快去公衆號內回覆「HashMap」看文章吧～api

Collection

先來看最上層的 Collection.數組

Collection 裏還定義了不少方法，這些方法也都會繼承到各個子接口和實現類裏，而這些 API 的使用也是平常工做和麪試常見常考的，因此咱們先來看下這些方法。安全

操做集合，無非就是「增刪改查」四大類，也叫 CRUD:

Create, Read, Update, and Delete.

那我也把這些 API 分爲這四大類：

功能	方法
增	add()/addAll()
刪	remove()/ removeAll()
改	Collection Interface 裏沒有
查	contains()/ containsAll()
其餘	isEmpty()/size()/toArray()

下面具體來看：

增：

boolean add(E e);

add() 方法傳入的數據類型必須是 Object，因此當寫入基本數據類型的時候，會作自動裝箱 auto-boxing 和自動拆箱 unboxing。

還有另一個方法 addAll()，能夠把另外一個集合裏的元素加到此集合中。

boolean addAll(Collection<? extends E> c);

刪：

boolean remove(Object o);

remove()是刪除的指定元素。

那和 addAll() 對應的，
天然就有removeAll()，就是把集合 B 中的全部元素都刪掉。

boolean removeAll(Collection<?> c);

改：

Collection Interface 裏並無直接改元素的操做，反正刪和增就能夠完成改了嘛！

查：

查下集合中有沒有某個特定的元素：

boolean contains(Object o);

查集合 A 是否包含了集合 B：

boolean containsAll(Collection<?> c);

還有一些對集合總體的操做：

判斷集合是否爲空：

boolean isEmpty();

集合的大小：

int size();

把集合轉成數組：

Object[] toArray();

以上就是 Collection 中經常使用的 API 了。

在接口裏都定義好了，子類不要也得要。

固然子類也會作一些本身的實現，這樣就有了不一樣的數據結構。

那咱們一個個來看。

List

List 最大的特色就是：有序，可重複。

看官網說的：

An ordered collection (also known as a sequence).
Unlike sets, lists typically allow duplicate elements.

這一下把 Set 的特色也說出來了，和 List 徹底相反，Set 是 無序，不重複的。

List 的實現方式有 LinkedList 和 ArrayList 兩種，那面試時最常問的就是這兩個數據結構如何選擇。

對於這類選擇問題：
一是考慮數據結構是否能完成須要的功能；
若是都能完成，二是考慮哪一種更高效。

（萬事都是如此啊。

那具體來看這兩個 classes 的 API 和它們的時間複雜度：

功能	方法	ArrayList	LinkedList
增	add(E e)	O(1)	O(1)
增	add(int index, E e)	O(n)	O(n)
刪	remove(int index)	O(n)	O(n)
刪	remove(E e)	O(n)	O(n)
改	set(int index, E e)	O(1)	O(n)
查	get(int index)	O(1)	O(n)

稍微解釋幾個：

add(E e) 是在尾巴上加元素，雖然 ArrayList 可能會有擴容的狀況出現，可是均攤複雜度（amortized time complexity）仍是 O(1) 的。

add(int index, E e)是在特定的位置上加元素，LinkedList 須要先找到這個位置，再加上這個元素，雖然單純的「加」這個動做是 O(1) 的，可是要找到這個位置仍是 O(n) 的。（這個有的人就認爲是 O(1)，和麪試官解釋清楚就好了，拒絕扛精。

remove(int index)是 remove 這個 index 上的元素，因此

ArrayList 找到這個元素的過程是 O(1)，可是 remove 以後，後續元素都要往前移動一位，因此均攤複雜度是 O(n)；
LinkedList 也是要先找到這個 index，這個過程是 O(n) 的，因此總體也是 O(n)。

remove(E e)是 remove 見到的第一個這個元素，那麼

ArrayList 要先找到這個元素，這個過程是 O(n)，而後移除後還要往前移一位，這個更是 O(n)，總的仍是 O(n)；
LinkedList 也是要先找，這個過程是 O(n)，而後移走，這個過程是 O(1)，總的是 O(n).

那形成時間複雜度的區別的緣由是什麼呢？

答：

由於 ArrayList 是用數組來實現的。
而數組和鏈表的最大區別就是數組是能夠隨機訪問的（random access）。

這個特色形成了在數組裏能夠經過下標用 O(1) 的時間拿到任何位置的數，而鏈表則作不到，只能從頭開始逐個遍歷。

也就是說在「改查」這兩個功能上，由於數組可以隨機訪問，因此 ArrayList 的效率高。

那「增刪」呢？

若是不考慮找到這個元素的時間，

數組由於物理上的連續性，當要增刪元素時，在尾部還好，可是其餘地方就會致使後續元素都要移動，因此效率較低；而鏈表則能夠輕鬆的斷開和下一個元素的鏈接，直接插入新元素或者移除舊元素。

可是呢，實際上你不能不考慮找到元素的時間啊。。。並且若是是在尾部操做，數據量大時 ArrayList 會更快的。

因此說：

改查選擇 ArrayList；
增刪在尾部的選擇 ArrayList；
其餘狀況下，若是時間複雜度同樣，推薦選擇 ArrayList，由於 overhead 更小，或者說內存使用更有效率。

Vector

那做爲 List 的最後一個知識點，咱們來聊一下 Vector。這也是一個年齡暴露帖，用過的都是大佬。

那 Vector 和 ArrayList 同樣，也是繼承自 java.util.AbstractList<E>，底層也是用數組來實現的。

可是如今已經被棄用了，由於...它加了太多的 synchronized！

任何好處都是有代價的，線程安全的成本就是效率低，在某些系統裏很容易成爲瓶頸，因此如今你們再也不在數據結構的層面加 synchronized，而是把這個任務轉移給咱們程序員==

那麼面試常問題：Vector 和 ArrayList 的區別是什麼，只答出來這個還還不太全面。

來看 stack overflow 上的高票回答：

一是剛纔已經說過的線程安全問題；
二是擴容時擴多少的區別。

這個得看看源碼：

這是 ArrayList 的擴容實現，這個算術右移操做是把這個數的二進制往右移動一位，最左邊補符號位，可是由於容量沒有負數，因此仍是補 0.

那右移一位的效果就是除以 2，那麼定義的新容量就是原容量的 1.5 倍。

不瞭解這個右移操做符的小夥伴，公衆號內回覆「二進制」快複習一下吧～

再來看 Vector 的：

由於一般 capacityIncrement 咱們並不定義，因此默認狀況下它是擴容兩倍。

答出來這兩點，就確定沒問題了。

Queue & Deque

Queue 是一端進另外一端出的線性數據結構；而 Deque 是兩端均可以進出的。

Queue

Java 中的這個 Queue 接口稍微有點坑，通常來講隊列的語義都是先進先出（FIFO）的。

可是這裏有個例外，就是 PriorityQueue，也叫 heap，並不按照進去的時間順序出來，而是按照規定的優先級出去，而且它的操做並非 O(1) 的，時間複雜度的計算稍微有點複雜，咱們以後單獨開一篇來說。

那 Queue 的方法官網都總結好了，它有兩組 API，基本功能是同樣的，可是呢：

一組是會拋異常的；
另外一組會返回一個特殊值。

功能	拋異常	返回值
增	add(e)	offer(e)
刪	remove()	poll()
瞧	element()	peek()

爲何會拋異常呢？

好比隊列空了，那 remove() 就會拋異常，可是 poll() 就返回 null；element() 就會拋異常，而 peek() 就返回 null 就行了。

那 add(e) 怎麼會拋異常呢？

有些 Queue 它會有容量的限制，好比 BlockingQueue，那若是已經達到了它最大的容量且不會擴容的，就會拋異常；但若是 offer(e)，就會 return false.

那怎麼選擇呢？：

首先，要用就用同一組 API，先後要統一；
其次，根據需求。若是你須要它拋異常，那就是用拋異常的；不過作算法題時基本不用，因此選那組返回特殊值的就行了。

Deque

Deque 是兩端均可以進出的，那天然是有針對 First 端的操做和對 Last 端的操做，那每端都有兩組，一組拋異常，一組返回特殊值：

功能	拋異常	返回值
增	addFirst(e)/ addLast(e)	offerFirst(e)/ offerLast(e)
刪	removeFirst()/ removeLast()	pollFirst()/ pollLast()
瞧	getFirst()/ getLast()	peekFirst()/ peekLast()

使用時同理，要用就用同一組。

Queue 和 Deque 的這些 API 都是 O(1) 的時間複雜度，準確來講是均攤時間複雜度。

實現類

它們的實現類有這三個：

因此說，

若是想實現「普通隊列 - 先進先出」的語義，就使用 LinkedList 或者 ArrayDeque 來實現；
若是想實現「優先隊列」的語義，就使用 PriorityQueue；
若是想實現「棧」的語義，就使用 ArrayDeque。

咱們一個個來看。

在實現普通隊列時，如何選擇用 LinkedList 仍是 ArrayDeque 呢？

來看一下 StackOverflow 上的高票回答：

總結來講就是推薦使用 ArrayDeque，由於效率高，而 LinkedList 還會有其餘的額外開銷（overhead）。

那 ArrayDeque 和 LinkedList 的區別有哪些呢？

仍是在剛纔的同一個問題下，這是我認爲總結的最好的：

ArrayDeque 是一個可擴容的數組，LinkedList 是鏈表結構；
ArrayDeque 裏不能夠存 null 值，可是 LinkedList 能夠；
ArrayDeque 在操做頭尾端的增刪操做時更高效，可是 LinkedList 只有在當要移除中間某個元素且已經找到了這個元素後的移除纔是 O(1) 的；
ArrayDeque 在內存使用方面更高效。

因此，只要不是必需要存 null 值，就選擇 ArrayDeque 吧！

那若是是一個很資深的面試官問你，什麼狀況下你要選擇用 LinkedList 呢？

答：Java 6 之前。。。由於 ArrayDeque 在 Java 6 以後纔有的。。

爲了版本兼容的問題，實際工做中咱們不得不作一些妥協。。

那最後一個問題，就是關於 Stack 了。

Stack

Stack 在語義上是 先進先出（LIFO） 的線性數據結構。

有不少高頻面試題都是要用到棧的，好比接水問題，雖然最優解是用雙指針，可是用棧是最直觀的解法也是須要了解的，以後有機會再專門寫吧。

那在 Java 中是怎麼實現棧的呢？

雖然 Java 中有 Stack 這個類，可是呢，官方文檔都說不讓用了！

緣由也很簡單，由於 Vector 已通過被棄用了，而 Stack 是繼承 Vector 的。

那麼想實現 Stack 的語義，就用 ArrayDeque 吧：

Deque<Integer> stack = new ArrayDeque<>();

Set

最後一個 Set，剛纔已經說過了 Set 的特定是無序，不重複的。

就和數學裏學的「集合」的概念一致。

Set 的經常使用實現類有三個：

HashSet: 採用 Hashmap 的 key 來儲存元素，主要特色是無序的，基本操做都是 O(1) 的時間複雜度，很快。

LinkedHashSet: 這個是一個 HashSet + LinkedList 的結構，特色就是既擁有了 O(1) 的時間複雜度，又可以保留插入的順序。

TreeSet: 採用紅黑樹結構，特色是能夠有序，能夠用天然排序或者自定義比較器來排序；缺點就是查詢速度沒有 HashSet 快。

那每一個 Set 的底層實現其實就是對應的 Map：

數值放在 map 中的 key 上，value 上放了個 PRESENT，是一個靜態的 Object，至關於 place holder，每一個 key 都指向這個 object。

那麼具體的實現原理、增刪改查四種操做，以及哈希衝突、hashCode()/equals() 等問題都在 HashMap 那篇文章裏講過了，這裏就不贅述了，沒有看過的小夥伴能夠在公衆號後臺回覆「HashMap」獲取文章哦～

總結

再回到開篇的這張圖，有沒有清楚了一些呢？

每一個數據結構下面其實都有不少內容，好比 PriorityQueue 也就是堆，齊姐以前也專門寫過文章講解它的相關操做，好比頗有名的 heapify() 的過程爲何是 O(n) 的等面試常問題，感興趣的小夥伴在公衆號後臺回覆「堆」獲取文章吧～

若是你喜歡這篇文章，記得給我點贊留言哦～大家的支持和承認，就是我創做的最大動力，咱們下篇文章見！

我是小齊，紐約程序媛，終生學習者，天天晚上 9 點，雲自習室裏不見不散！

更多幹貨文章見個人 Github: https://github.com/xiaoqi6666...

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。