走進 JDK 之 ArrayList（一）

時間 2019-11-29

標籤走進 jdk arraylist 欄目 Java 简体版

原文原文鏈接

這篇原本是準備寫 Java 集合框架概述 的，就是寫起來效果不怎麼樣，多是對整個 Java 集合框架尚未作到了然於心。因此仍是先來源碼分析，寫完全部集合類的分析以後，再來整體概述。今天就從最最經常使用的 ArrayList 提及。java

概述

ArrayList 是一種能夠動態增加和縮減的線性表數據結構，容許重複元素，容許 null 值。基於動態數組實現，在內存中是連續的，這點和鏈表不一樣。另外，它不是線程安全的，與之相對應的一樣基於動態數組實現的有序序列 Vector 則是線程安全的。數組

因爲數組在內存中佔用連續的內存空間，因此 ArrayList 具有隨機訪問能力，其根據下標隨機訪問的時間複雜度是 O(1)。一樣，爲了保證內存的連續性，其插入和刪除操做就相對低效的多。在指定位置插入數據，就要將該位置以後的數據都日後挪，才能騰出空間。在指定位置刪除數據，就要將該位置以後的數據所有往前挪，才能保證空間連續性。它們的平均時間複雜度都是 O(n)。安全

ArrayList 的使用仍是比較簡單的，下面仍是帶着兩個問題看源碼:微信

ArrayList 初始大小是多少？它是如何動態擴容的？數據結構

源碼解析

類聲明

public class ArrayList<E> extends AbstractList<E> implements List<E>, RandomAccess, Cloneable, java.io.Serializable {}
複製代碼

Collection 是全部集合的根接口，定義了一些通用性的行爲，抽象類 AbstractCollection 提供了部分集合類型無關的通用實現。List 接口針對有序集合擴展了 Collection 接口，抽象類 AbstractList 提供了部分默認實現，固然 ArrayList 並無照單全收，更多的是重寫提供了本身的實現。
實現了 RandomAccess 接口說明其支持快速隨機訪問，其實並無實現任何方法，應該僅僅只是起一個標記的做用。
實現 Cloneable 接口，提供淺拷貝。
實現了 Serializable 接口，提供序列化能力，且重寫了 readObject() 和 writeObject() 方法。

成員變量

private static final int DEFAULT_CAPACITY = 10; // 默認初始容量
private static final Object[] EMPTY_ELEMENTDATA = {}; // 共享空數組
private static final Object[] DEFAULTCAPACITY_EMPTY_ELEMENTDATA = {}; // 默認共享空數組
transient Object[] elementData; // 真正保存數據的數組
private int size; // 當前元素個數
private static final int MAX_ARRAY_SIZE = Integer.MAX_VALUE - 8; // 數組容量最大值
複製代碼

elementData 是真正用來保存數據的數組。關於它的默認大小，讓人很容易搞錯。一看到 DEFAULT_CAPACITY 爲 10，讓人不由自主的認爲我一旦新建了一個 ArrayList，它的默認大小就是 10。其實並非這樣的，後面看到構造函數的時候你就理解了。框架

數組的最大容量是 Integer.MAX_VALUE - 8，看到這個數字你應該很熟悉。AbstractStringBuilder 類用來存儲字符的 char[] ，最大容量也是這個數字。考慮到一些虛擬機實現會保留數組對象的頭信息，大於此值可能會致使 OOM ，注意只是可能。可是若是大於 Integer.MAX_VALUE 的話，就會直接拋出 OOM 。dom

構造函數

public ArrayList() {
    this.elementData = DEFAULTCAPACITY_EMPTY_ELEMENTDATA;
}
複製代碼

DEFAULTCAPACITY_EMPTY_ELEMENTDATA 是一個空數組，因此當你執行 List list = new ArrayList() 時，實際上建立了一個空數組，並非容量爲 10 的數組。函數

public ArrayList(int initialCapacity) {
    if (initialCapacity > 0) {
        this.elementData = new Object[initialCapacity];
    } else if (initialCapacity == 0) {
        this.elementData = EMPTY_ELEMENTDATA;
    } else {
        throw new IllegalArgumentException("Illegal Capacity: "+ initialCapacity);
    }
}
複製代碼

當咱們能夠預估到 ArrayList 須要容納的元素數量時，咱們能夠直接指定數組大小 initialCapacity，避免後續自動擴容帶來的性能損耗和空間浪費。initialCapacity 大小按以下規則：源碼分析

大於 0 時，建立指定大小的數組
等於 0 時，使用成員變量 EMPTY_ELEMENTDATA，它是一個空數組
小於 0 時，直接拋出異常

public ArrayList(Collection<? extends E> c) {
    elementData = c.toArray();
    if ((size = elementData.length) != 0) {
        // c.toArray might (incorrectly) not return Object[] (see 6260652)
        if (elementData.getClass() != Object[].class)
            elementData = Arrays.copyOf(elementData, size, Object[].class);
    } else {
        // replace with empty array.
        this.elementData = EMPTY_ELEMENTDATA;
    }
}
複製代碼

咱們也能夠用一個集合來初始化 ArrayList 。調用集合的 toArray() 方法轉換爲數組並賦給 elementData。若是傳入的集合長度爲 0，則將空數組 EMPTY_ELEMENTDATA 賦給 elementData。性能

方法

ArrayList 提供了插入，刪除，清空，查找，遍歷等基本集合操做。下面從 add() 開始，經過源碼更加深入的理解 ArrayList 的實現。

add()

public void add(int index, E element) {
    rangeCheckForAdd(index); // 邊界檢測

    ensureCapacityInternal(size + 1);  // Increments modCount!!
    System.arraycopy(elementData, index, elementData, index + 1,
                         size - index); // 移動 index 以後的全部元素
    elementData[index] = element;
    size++;
}
複製代碼

rangeCheckForAdd() 這個方法在後面也會用到不少次，主要作邊界檢測，當 index 大於 size 或者小於 0 時，都會拋出 IndexOutOfBoundsException 異常。

第二步 ensureCapacityInternal() 的做用是保證集合的空間足以繼續添加元素，空間不足時會自動擴容。這個方法很重要，能夠說是 ArrayList 的核心了。咱們來看一下究竟是如何擴容的。

private void ensureCapacityInternal(int minCapacity) {
        ensureExplicitCapacity(calculateCapacity(elementData, minCapacity));
    }

    private void ensureExplicitCapacity(int minCapacity) {
        modCount++;

        // overflow-conscious code
        if (minCapacity - elementData.length > 0)
            grow(minCapacity); // 擴容
    }
複製代碼

經過 calculateCapacity() 方法計算合適的最少空間：

private static int calculateCapacity(Object[] elementData, int minCapacity) {
    if (elementData == DEFAULTCAPACITY_EMPTY_ELEMENTDATA) {
        return Math.max(DEFAULT_CAPACITY, minCapacity); // 若是當前是空數組，取 minCapacity 和 10 的較大值
    }
    return minCapacity;
}
複製代碼

若是初始化時沒有指定集合大小，則取 DEFAULT_CAPACITY（等於10）和 minCapacity 的較大值。因此，若是咱們構建了一個空 ArrayList，當咱們添加第一個元素的時候，就會默認擴容至 10 。

當 minCapacity 大於當前數組長度時，就須要擴容了，grow() 方法就是擴容的具體實現：

private void grow(int minCapacity) {
    // overflow-conscious code
    int oldCapacity = elementData.length; // 原數組大小
    int newCapacity = oldCapacity + (oldCapacity >> 1); // 擴容至原來的 1.5 倍
    if (newCapacity - minCapacity < 0)
        newCapacity = minCapacity;
    if (newCapacity - MAX_ARRAY_SIZE > 0)
        newCapacity = hugeCapacity(minCapacity); // 容量最大最大隻能是 Integer.MAX_VALUE
    // minCapacity is usually close to size, so this is a win:
    elementData = Arrays.copyOf(elementData, newCapacity);
}
複製代碼

每次擴容後爲原來容量的 1.5 倍，因此當咱們能夠預估元素數量的時候，直接在構造函數中指定，就能夠節約空間了。若是擴容後的新容量大於 MAX_ARRAY_SIZE，即 Integer.MAX_VALUE - 8，調用 hugeCapacity() 方法再作一次判斷。

private static int hugeCapacity(int minCapacity) {
    if (minCapacity < 0) // overflow
        throw new OutOfMemoryError(); // 小於 0，即發生溢出，拋出 OOM
    return (minCapacity > MAX_ARRAY_SIZE) ? // 最大隻可能爲 Integer.MAX_VALUE
        Integer.MAX_VALUE : MAX_ARRAY_SIZE;
    }
複製代碼

最後使用 Arrays.copyOf() 方法建立新數組：

public static <T,U> T[] copyOf(U[] original, int newLength, Class<? extends T[]> newType) {
    @SuppressWarnings("unchecked")
    T[] copy = ((Object)newType == (Object)Object[].class)
        ? (T[]) new Object[newLength]
        : (T[]) Array.newInstance(newType.getComponentType(), newLength);
    System.arraycopy(original, 0, copy, 0,
                    Math.min(original.length, newLength));
    return copy;
}
複製代碼

擴容完成以後，就能夠愉快的添加元素了，直接給 elementData[size++] 賦值便可。

一個參數的 add(E element) 方法是在數組尾部添加元素，除此以外，ArrayList 還支持在指定位置添加元素，add(int index, E element):

public void add(int index, E element) {
    rangeCheckForAdd(index); // 邊界檢測

    ensureCapacityInternal(size + 1);  // Increments modCount!!
    System.arraycopy(elementData, index, elementData, index + 1,
                    size - index); // 移動 index 以後的全部元素
    elementData[index] = element;
    size++;
}
複製代碼

在指定位置 index 處插入一個元素，就須要把 index 後面的元素都依次日後移動，給要添加的元素騰出來位置，因此 ArrayList 的插入操做並非那麼的高效。

remove()

remove() 方法也有兩個，第一個是移除指定位置的元素：

public E remove(int index) {
    rangeCheck(index); // 邊界檢測

    modCount++;
    E oldValue = elementData(index);

    int numMoved = size - index - 1;
    if (numMoved > 0) // 移動 index 以後的全部元素
        System.arraycopy(elementData, index+1, elementData, index,
                        numMoved);
    elementData[--size] = null; // clear to let GC do its work

    return oldValue;
}
複製代碼

邏輯比較簡單，將 index 以後的全部元素都依次往前移動，注意在完成移動以後，將集合尾部元素置空，以便 GC 回收。和插入同樣，ArrayList 的刪除也不是那麼的高效，時間複雜度都是 O(n) 。

第二個是移除指定元素：

public boolean remove(Object o) { // 若有多個，僅移除第一個
    if (o == null) {
        for (int index = 0; index < size; index++)
            if (elementData[index] == null) {
                fastRemove(index);
                return true;
            }
    } else {
        for (int index = 0; index < size; index++)
            if (o.equals(elementData[index])) {
                fastRemove(index);
                return true;
            }
    }
    return false;
}
複製代碼

這裏要注意一點，當集合中存在重複元素時，不管是 null 仍是其餘對象，remove() 方法只會移除其中的第一個。這裏用的移除用的是 fastRemove() 方法，其實和普通的 remove() 方法沒什麼區別，只是取消了邊界檢測，且沒有返回值，因此更 fast 一點。

/* * Private remove method that skips bounds checking and does not * return the value removed. * 取消邊界檢查，且不返回 remove 掉的值 */
private void fastRemove(int index) {
    modCount++;
    int numMoved = size - index - 1;
    if (numMoved > 0)
        System.arraycopy(elementData, index+1, elementData, index,
                        numMoved);
    elementData[--size] = null; // clear to let GC do its work
}
複製代碼

removeAll() && retainAll()

public boolean removeAll(Collection<?> c) {
    Objects.requireNonNull(c);
    return batchRemove(c, false);
}
複製代碼

removeAll() 方法是移除全部包含在集合 c 中的元素，調用 batchRemove() 實現。

public boolean retainAll(Collection<?> c) {
    Objects.requireNonNull(c);
    return batchRemove(c, true);
}
複製代碼

retainAll() 方法正好與 removeAll() 相反，是保留全部包含在集合 c 中的元素，移除其餘元素，也是調用 batchRemove() 實現。

batchRemove() 方法應該是 ArrayList 中比較複雜的一個方法了，可是絕對值得仔細一看。

/** * * @param c 集合 * @param complement 爲 true 時，保留指定集合中的值，爲 false 時，刪除指定集合中的值 * @return 數組中重複的元素都會被刪除，只要發生刪除就會返回 true */
private boolean batchRemove(Collection<?> c, boolean complement) {
    final Object[] elementData = this.elementData;
    int r = 0, w = 0;
    boolean modified = false;
    try {
        // 遍歷數組，並檢查這個集合是否包含對應的值，移動要保留的值到數組前面，w 最終值爲要保留的元素的數量
        // 也就是說，若是是 retainAll()，就將相同元素移動到數組前面。
        // 若是是 removeAll()，就將不一樣元素移動到數組前面
        for (; r < size; r++)
            if (c.contains(elementData[r]) == complement)
                elementData[w++] = elementData[r];
    } finally {
        // Preserve behavioral compatibility with AbstractCollection,
        // even if c.contains() throws.
        if (r != size) { // r != size，說明發生異常，循環未執行完成
            System.arraycopy(elementData, r,
                            elementData, w,
                            size - r); // 將 r 以後的元素移動過去
            w += size - r;
        }
        // w == size 說明保留所有元素，modified 返回 false
        if (w != size) {
            // clear to let GC do its work
            for (int i = w; i < size; i++)
                elementData[i] = null;
            modCount += size - w; // 更新 modCount
            size = w; // w 就是要保存的元素個數
            modified = true;
        }
    }
    return modified;
}
複製代碼

總之，無論你是 removeAll() 仍是 retainAll()，我 batchRemove() 一概把要保留的元素移到前面，要刪掉的元素扔後面，並記錄下面要保留元素的個數。

其餘

後面的方法都很簡單直白，大體瀏覽一下就能夠了。

// 獲取集合大小
public int size() {
    return size;
}

// 判斷集合是否爲空
public boolean isEmpty() {
    return size == 0;
}

// 獲取元素下標
public int indexOf(Object o) {
    if (o == null) {
        for (int i = 0; i < size; i++)
            if (elementData[i]==null)
                return i;
    } else {
        for (int i = 0; i < size; i++)
            if (o.equals(elementData[i]))
                return i;
    }
    return -1;
}

// 設置指定位置的元素
public E set(int index, E element) {
    rangeCheck(index);

    E oldValue = elementData(index);
    elementData[index] = element;
    return oldValue;
}

// 獲取指定位置的元素
public E get(int index) {
    rangeCheck(index);

    return elementData(index);
}

// 清空集合
public void clear() {
    modCount++;

    // clear to let GC do its work
    for (int i = 0; i < size; i++)
        elementData[i] = null;

    size = 0;
}
複製代碼

總結

簡單總結一下 ArrayList：

基於動態數組實現，自動擴容每次增加爲原來的 1.5 倍
在內存中是連續的，具有隨機訪問能力
根據下標獲取元素的時間複雜度是 O(1)
添加元素和刪除元素的平均時間複雜度是 O(n)
容許重複元素，容許 null 值，線程不安全

既然標題是 走進 JDK 之 ArrayList（一），那麼確定還有二嘛。若是你有認真看 ArrayList 源碼，你會發現一個常常出現的字段 modCount，字面意思就是修改次數。基本但凡涉及到修改集合的方法，大多都會執行 modCount++ 操做，以 clear() 方法爲例：

public void clear() {
    modCount++;
    // clear to let GC do its work
    for (int i = 0; i < size; i++)
        elementData[i] = null;
    size = 0;
}
複製代碼

那麼，這個 modCount 究竟有什麼做用，這即是 走進 JDK 之 ArrayList（二） 所要詳細說明的。