有多個初始狀態的 DFA

時間 2019-11-10

標籤多個初始狀態 dfa 简体版

原文原文鏈接

最近作了一項工做：容許一個 DFA 有多個起始狀態（能夠稱做根: root）。引入這個概念有不少好處，主要體如今 DFA Union 中，這個操做經過 NFA 到 DFA 的轉化來完成，算法思想很簡單：正則表達式

建立一個 NFA，該 NFA 只有初始狀態是非肯定 (non-DFA) 狀態：初始狀態只有 ε 轉移，這些 ε 轉移指向全部要被 Union 的 DFA 的初始狀態，而後將該 NFA 轉化爲 DFA。算法

由於 NFA 轉化 DFA 是 NSpace 的，雖然不少數狀況下只有線性複雜度，咱們仍然但願儘量減少這個複雜度。性能

對於多正則表達式匹配（Multiple Regular Expression Matching）的 DFA

在建立多正則表達式匹配的 DFA 的過程當中，就有一個 DFA 的 Union 操做，在這個過程當中，若是狀態膨脹失去控制，須要使用某種方式對正則表達式集合進行分組，以便抑制這種狀態膨脹。分組後會生成多個 DFA ，可是爲了應用程序接口方便統一，將這多個 DFA 揉進一個 DFA 對象，每一個分組的 DFA 就須要一個不一樣的初始狀態(根)。優化

改善 DFA Union 的性能

有相同 Tail 的多個 DFA

若是用 adfa_build 分別建立了多個不一樣的 ADFA(Acyclic DFA, 無環自動機)，在隨後的某個時間點，想將這多個 ADFA 進行合併，仍然是 DFA 的 Union 操做，這種狀況下 NFA 轉 DFA 過程當中的狀態膨脹老是線性的，雖然如此，NFA 轉 DFA 的過程當中仍然須要大量內存。

雖然以前我也曾想過 DFA 包含多個初始狀態(根)的可能性，但一直沒有深刻思考，此次通過仔細思考，發現：對於(全部的) DFA 最小化算法，從理論上講，徹底沒有必要限制爲單根 DFA，無論有多少個根，算法都能正常工做！惟一須要注意的是，最小化先後的根，在某些應用中須要一一對應起來。ui

最小化以前的多根 DFA 能夠徹底是獨立的，惟一的要求是全部 DFA 的狀態 ID 屬於同一個 ID 空間，這很簡單，工程上用同一個 DFA 對象來表達便可，對於分離的多個 DFA 對象，只須要實現一個 DFA 包裝器，將多個分離的 DFA 的狀態 ID 從新映射便可。spa

如此，就完成了執行多根 DFA 最小化的全部準備。最小化完成以後，這些多個 DFA 會共享一些相同的尾部，通常狀況下，頭部不會共享；不過極端狀況下，例如 DFA1 是 DFA2 的子集，那麼，從 DFA2 的根就能到達 DFA1 的根，此時整個 DFA1 就被徹底共享了。.net