最近剛剛用python寫完了一個解析protobuf文件的簡單編譯器,深感ply實現詞法分析和語法分析的簡潔方便。乘着餘熱未過,頭腦清醒,記下一點總結和心得,方便各位pythoner參考使用。html
若是你不是從事編譯器或者解析器的開發工做,你可能從未據說過ply。ply是基於python的lex和yacc,而它的做者就是大名鼎鼎Python Cookbook, 3rd Edition的做者。可能有些朋友就納悶了,我一個業務開發怎麼須要本身寫編譯器呢,各位編程大牛說過,中央決定了,要多嘗試新的東西。並且瞭解一些語法解析的姿式,之後本身解析格式複雜的日誌或者數學公式,也是很是有幫助的。python
針對沒有編譯基礎的童鞋,強烈建議瞭解一些文法相關的基本概念。輪子哥強烈推薦的parsing techniques以及編譯龍虎鯨書,我的感受都不適合入門學習,在此推薦胡倫俊的編譯原理(電子工業出版社),針對概念的例子講解不少,很適合入門學習。固然也不須要特別深刻研究,知道詞法分析和語法分析的相關概念和方法就能夠愉快的使用ply了。文檔連接: http://www.pchou.info/open-source/2014/01/18/52da47204d4cb.htmlc++
爲了方便你們上手,以求解多元一次方程組爲例,講解一下ply的使用。git
輸入是多個格式爲x + 4y - 3.2z = 7
的一次方程,爲了讓例子儘量簡單,作以下限制:github
1.4e8
的格式,係數和變量緊鄰,且係數不能爲0, ;
隔開學過線性代數的童鞋確定知道,只須要將方程組抽象爲矩陣,按照線性代數的方法就能夠解決。所以只須要將輸入方程組解析成右邊的矩陣和變量列表便可,剩下的求解過程就能夠交給線性代數相關的工具解決。正則表達式
ply中的lex來作詞法解析,詞法解析的理論有一大堆,可是lex用起來卻很是直觀,就是用正則表達式的方式將文本字符串解析爲一個一個的token,下面的代碼就是用lex實現詞法解析。算法
# coding=utf-8 from ply import lex # 空格 製表符 回車這些不可見符號都忽略 t_ignore = ' \t\r' # 解析錯誤的時候直接拋出異常 def t_error(t): raise Exception('error {} at line {}'.format(t.value[0], t.lineno)) # 記錄行號,方便出錯定位 def t_newline(t): r'\n+' t.lexer.lineno += len(t.value) # 支持c++風格的\\註釋 def t_ignore_COMMENT(t): r'\/\/[^\n]*' # 變量的命令規則 def t_VARIABLE(t): r'[a-z]+' return t # 常數命令規則 def t_CONSTANT(t): r'\d+(\.\d+)?' t.value = float(t.value) return t # 輸入中支持的符號頭token,固然也支持t_PLUS = r'\+'的方式將加號定義爲token literals = '+-,;=' tokens = ('VARIABLE', 'CONSTANT') if __name__ == '__main__': data = ''' -x + 2.4y + z = 0; //this is a comment 9y - z + 7.2x = -1; y - z + x = 8 ''' lexer = lex.lex() lexer.input(data) while True: tok = lexer.token() if not tok: break print tok
直接運行文件就能夠將解析的token串打印出來,以下所示,詳細的使用文檔能夠參考ply文檔。express
LexToken(-,'-',2,5)
LexToken(VARIABLE,'x',2,6)
LexToken(+,'+',2,8)
LexToken(CONSTANT,2.4,2,10)
LexToken(VARIABLE,'y',2,13)
LexToken(+,'+',2,15)
LexToken(VARIABLE,'z',2,17)
LexToken(=,'=',2,19)
LexToken(CONSTANT,0.0,2,21)
LexToken(;,';',2,22)
LexToken(CONSTANT,9.0,3,48)
LexToken(VARIABLE,'y',3,49)
LexToken(-,'-',3,51)
LexToken(VARIABLE,'z',3,53)
LexToken(+,'+',3,55)
LexToken(CONSTANT,7.2,3,57)
LexToken(VARIABLE,'x',3,60)
LexToken(=,'=',3,62)
LexToken(-,'-',3,64)
LexToken(CONSTANT,1.0,3,65)
LexToken(;,';',3,66)
LexToken(VARIABLE,'y',4,72)
LexToken(-,'-',4,74)
LexToken(VARIABLE,'z',4,76)
LexToken(+,'+',4,78)
LexToken(VARIABLE,'x',4,80)
LexToken(=,'=',4,82)
LexToken(CONSTANT,8.0,4,84)編程
# coding=utf-8 # ------------------------------------------------------------ # calclex.py # # tokenizer for a simple expression evaluator for # numbers and +,-,*,/ # ------------------------------------------------------------ import ply.lex as lex # List of token names. This is always required tokens = ( 'NUMBER', 'PLUS', 'MINUS', 'TIMES', 'DIVIDE', 'LPAREN', 'RPAREN', ) # Regular expression rules for simple tokens t_PLUS = r'\+' t_MINUS = r'-' t_TIMES = r'\*' t_DIVIDE = r'/' t_LPAREN = r'\(' t_RPAREN = r'\)' # A regular expression rule with some action code def t_NUMBER(t): r'\d+' t.value = int(t.value) return t # Define a rule so we can track line numbers def t_newline(t): r'\n+' t.lexer.lineno += len(t.value) # A string containing ignored characters (spaces and tabs) t_ignore = ' \t' # Error handling rule def t_error(t): print "Illegal character '%s'" % t.value[0] t.lexer.skip(1) # Build the lexer lexer = lex.lex() #爲了使lexer工做,你須要給定一個輸入,並傳遞給input()方法。而後,重複調用token()方法來獲取標記序列,下面的代碼展現了這種用法: # Test it out data = ''' 3 + 4 * 10 + -20 *2 ''' # Give the lexer some input lexer.input(data) # Tokenize while True: tok = lexer.token() if not tok: break # No more input print tok
直接運行文件就能夠將解析的token串打印出來,以下所示,詳細的使用文檔能夠參考ply文檔。bash
$ python calclex.py LexToken(NUMBER,3,2,1) LexToken(PLUS,'+',2,3) LexToken(NUMBER,4,2,5) LexToken(TIMES,'*',2,7) LexToken(NUMBER,10,2,9) LexToken(PLUS,'+',3,14) LexToken(MINUS,'-',3,16) LexToken(NUMBER,20,3,17) LexToken(TIMES,'*',3,20) LexToken(NUMBER,2,3,21)
ply中的yacc用做語法分析,雖然複雜的詞法分析能夠代替簡單的語法分析,但相似於編程語言的解析再複雜的詞法分析也勝任不了。在使用yacc以前,須要瞭解上下文無關文法,這部份內容太多太雜,我也只瞭解部分簡單的概念,有興趣的能夠看一看編譯原理深刻了解。
目前語法分析的方法有兩大類,即自下向上的分析方法和自上而下的分析方法。所謂自上而下的分下法就是從文法的開始符號出發,根據文法規則正向推到出給定句子的一種方法,或者說,從樹根開始,往下構造語法樹,直到創建每一個樹葉的分析方法。表明算法是LL(1),此算法文法解析能力不強,對文法定義要求比較高,主流的編譯器都沒有使用。自下而上的分析法是從給定的輸入串開始,根據文法規則逐步進行歸約,直至歸約到文法的開始符號,或者說從語法書的末端開始,步步向上歸約,直至歸約到根節點的分析方法。表明算法有SLR、LRLR,ply使用的就是LRLR。
所以咱們只須要定義文法和規約動做便可,如下就是完整的代碼。
# -*- coding=utf8 -*- from ply import ( lex, yacc ) # 空格 製表符 回車這些不可見符號都忽略 t_ignore = ' \t\r' # 解析錯誤的時候直接拋出異常 def t_error(t): raise Exception('error {} at line {}'.format(t.value[0], t.lineno)) # 記錄行號,方便出錯定位 def t_newline(t): r'\n+' t.lexer.lineno += len(t.value) # 支持c++風格的\\註釋 def t_ignore_COMMENT(t): r'\/\/[^\n]*' # 變量的命令規則 def t_VARIABLE(t): r'[a-z]+' return t # 常數命令規則 def t_CONSTANT(t): r'\d+(\.\d+)?' t.value = float(t.value) return t # 輸入中支持的符號頭token,固然也支持t_PLUS = r'\+'的方式將加號定義爲token literals = '+-,;=' tokens = ('VARIABLE', 'CONSTANT') # 頂層文法,規約的時候equations對應的p[1]是一個列表,包含了方程左邊各個變量與係數還有方程左邊的常數 def p_start(p): """start : equations""" var_count, var_list = 0, [] for left, _ in p[1]: for con, var_name in left: if var_name in var_list: continue var_list.append(var_name) var_count += 1 matrix = [[0] * (var_count + 1) for _ in xrange(len(p[1]))] for counter, eq in enumerate(p[1]): left, right = eq for con, var_name in left: matrix[counter][var_list.index(var_name)] = con matrix[counter][-1] = -right var_list.append(1) p[0] = matrix, var_list # 方程組對應的文法,每一個方程用,或者;作分隔 def p_equations(p): """equations : equation ',' equations | equation ';' equations | equation""" if len(p) == 2: p[0] = [p[1]] else: p[0] = [p[1]] + p[3] # 單個方程對應的文法 def p_equation(p): """equation : eq_left '=' eq_right""" p[0] = (p[1], p[3]) # 方程等式左邊對應的文法 def p_eq_left(p): """eq_left : var_unit eq_left |""" if len(p) == 1: p[0] = [] else: p[0] = [p[1]] + p[2] # 六種文法對應例子: x, 5x, +x, -x, +4x, -4y # 歸約的形式是一個元組,例: (5, 'x') def p_var_unit(p): """var_unit : VARIABLE | CONSTANT VARIABLE | '+' VARIABLE | '-' VARIABLE | '+' CONSTANT VARIABLE | '-' CONSTANT VARIABLE""" len_p = len(p) if len_p == 2: p[0] = (1.0, p[1]) elif len_p == 3: if p[1] == '+': p[0] = (1.0, p[2]) elif p[1] == '-': p[0] = (-1.0, p[2]) else: p[0] = (p[1], p[2]) else: if p[1] == '+': p[0] = (p[2], p[3]) else: p[0] = (-p[2], p[3]) # 方程等式右邊對應的常數,對應的例子:1.2, +1.2, -1.2 def p_eq_right(p): """eq_right : CONSTANT | '+' CONSTANT | '-' CONSTANT""" if len(p) == 3: if p[1] == '-': p[0] = -p[2] else: p[0] = p[2] else: p[0] = p[1] if __name__ == '__main__': data = ''' -x + 2.4y + z = 0; //this is a comment 9y - z + 7.2x = -1; y - z + x = 8 ''' lexer = lex.lex() parser = yacc.yacc(debug=True) lexer.lineno = 1 s = parser.parse(data) print s
直接運行文件便可,獲得的輸出以下,以後就能夠根據線性代數的方法求解各個變量的值
WARNING: no p_error() function is defined
Generating LALR tables
([[-1.0, 2.4, 1.0, -0.0], [7.2, 9.0, -1.0, 1.0], [1.0, 1.0, -1.0, -8.0]], ['x', 'y', 'z', 1])
總結
依託於python簡潔的語法,ply爲咱們提供了一個強大的語法分析工具,更復雜的例子能夠參考https://github.com/LiuRoy/proto_parser,這是我用ply實現的一個簡單的protobuf解析器,用於減小頻繁的中間文件生成。有這種神器,一顆賽艇!