詞法分析器算法
首先本次實驗分爲三個小題分別爲:C語言詞法分析器、四則運算文法、解釋器。所以如下一 ~ 九部分是C語言詞法分析器的實驗內容,十 ~ 十三部分是四則運算及其解釋器的實驗內容。編程
1.第一小題:數組
明確目標:編程語言
按照已經掌握的C語言的詞法規範,編寫可以按照C語言規範識別每一個詞法符號的分析器。從一個文本文件(典型地,就是C語言的源程序文件)中讀入字符流,通過識別以後逐個輸出詞法符號(只需原樣輸出識別到的詞法符號,無需考慮語法屬性)。ide
幾個要求:模塊化
(1)假定該語言有:函數
預處理指令:以#開頭。工具
字符常量:單撇號做爲界標;學習
字符串常量:雙撇號做爲界標;測試
數值型常量:數字開頭,如01六、0x8b、1.0f、3L都是,這裏只選擇整數;
標識符:非數字開頭的下劃線字母數字串(包括保留字);
運算符:有單字符的,也有多字符的如++、+=、&&=、sizeof等。
分隔符:逗號,分號,括號,花括弧,冒號(定義標號時使用);
(2)至少要有一個空白符將相鄰的標識符、數值型常量和關鍵字隔開,但不能用空白符將符號中的相鄰字符分開。
(3)註釋是以符號/*開始,並以*/的第一次出現做爲結束,或者以//開頭。
(4)須要在輸出結果前說明該符號的詞法屬性。例如:預約義:#include<stdio.h>
2.第二小題:
明確目標:
構造一個可以實現四則運算的文法。
幾個要求:
對文法的符號、規則、特性以及語言給出準確解釋。
3.第三小題:
明確目標:
根據四則運算文法構造編譯器。
幾個要求:
可以按照文法規則,逐行解釋執行輸入內容。
單詞符號 |
類型編碼 |
助記符 |
單詞符號 |
類型編碼 |
助記符 |
標識符 |
1 |
$SYMBOL |
字符常量 |
2 |
$CHARA |
字符串常量 |
3 |
$STRING |
數值型常量 |
4 |
$NUMER
|
Int |
5 |
$INT |
If |
6 |
$IF |
Else |
7 |
$ELSE |
While |
8 |
$WHILE |
For |
9 |
$FOR |
Read |
10 |
$READ |
Write |
11 |
$WRITE |
+ |
12 |
$ADD |
- |
13 |
$SUB |
* |
14 |
$MUL |
/ |
15 |
$DIV |
< |
16 |
$L |
++ |
17 |
$INC |
-- |
18 |
$DEC |
<= |
19 |
$LE |
> |
20 |
$G |
>= |
21 |
$GE |
!= |
22 |
#NE |
== |
23 |
#E |
= |
24 |
#ASSIGN |
( |
25 |
#LPAR |
) |
26 |
#RPAR |
, |
27 |
#COM |
; |
28 |
#SEM |
表1 數據模型圖
對於程序段 for(k=0; k<=100; ++k)將產生下面的結果。
步驟 |
輸出 |
含義 |
1 |
9, ’for’ |
標識符for |
2 |
25, ‘(‘ |
分隔符( |
3 |
1, ’k’ |
標識符k |
4 |
24, ’=’ |
運算符= |
5 |
4, ‘0’ |
數值型常量 |
6 |
28, ’;’ |
分隔符; |
7 |
1, ’k’ |
標識符k |
8 |
19, ’<=’ |
運算符<= |
9 |
4, ‘100’ |
數值型常量 |
10 |
28, ’;’ |
分隔符; |
11 |
17, ’++’ |
運算符++ |
12 |
1, ’k’ |
標識符k |
13 |
26, ‘)’ |
分隔符) |
表2 輸出描述
圖1 狀態轉換圖
圖2 狀態轉換圖細化
圖3 流程圖
一、預約義與頭文件
#include<stdio.h>
#include<ctype.h> //包含isspace函數 ,isalnum()是否字母或數字,isalpha()是否字母
//預處理是以>做爲結束,字符是以'做爲結束,字符串是以"做爲結束,
//數值型常量只能根據當前字符的下一個字符是否是數字判斷是否結束,標識符也是根據下一個字符判斷。因此要記錄下一個字符。
二、全局變量
int current_ch, next_ch,k=0;
int flag = 0;
char word[1024];
FILE *fp;
三、函數原型
//讀下一個字符
void read_next_char();
//預處理指令:
void get_preprocessing_line();
//提取字符型常量:\'
void get_char_const();
//提取字符串常量
void get_string_const();
//提取數值型常量,讀取文本只有整數:
void get_num_const();
//提取標識符:
void get_identifier();
//提取運算符
void get_operator();
//提取分隔符
void get_seperator();
//詞法分析部分的基本流程
int lexical_analyzer(FILE * input_file)
int main()
{
fp = fopen("test.txt","r");
if(fp == NULL)
{
printf("沒法找到文件\n");
return 0;
}
current_ch = fgetc(fp);//當前字符
lexical_analyzer(fp);
return 0;
}
完整代碼見附錄。
集成測試:測試過程當中出現了不少問題,最主要的一個就是對next_ch定義不明確。好比預處理指令判斷是否current_ch=’>’結束,字符是判斷current_ch是否等於單引號和雙引號結束。而數值型常量不一樣,必須判斷next_ch是否爲數字,標識符也是一樣的判斷next_ch。因此我添加了一個flag進行判斷。
圖4 測試文件
圖5 輸出示例
總體來講,本次實驗的難度不大,實驗過程並不涉及語法分析,只是對C語言簡單的詞法分析。題目一給出天然想到的就是使用多個判斷條件,判斷出到底是保留字、變量、常量、運算符、分隔符、頭文件和預約義仍是註釋。其次就是對輸入流字符的處理,咱們使用一個字符型數組word來保存。使用flag來判斷current_ch是字符型仍是數值型。咱們使用C語言面向過程的編程方式進行模塊化的編程,結構比較清晰。
通過參與此次詞法分析的實驗,咱們對C語言的詞法有了更進一步的理解。以及對編程語言的此法構成有了進一步的瞭解。知道了一些編譯器的基本工做方式。相信在接下來的學習中咱們會對計算機編譯原理有更深層次的理解。
四則運算
四則運算屬於2型文法,因此制定如下文法規則:
運算符→+-*/
整數→[1-9][0-9]* | 0
浮點數→整數.[0-9]*
數→整數 | 浮點數
算式→數 | 算式 運算符 數
用相應符號表示:
算式:S,運算符:P,整數:N,浮點數:F,數:D
P→+-*/
N→[1-9][0-9]* | 0
F→N.[0-9]*
D→N | F
S→D | S P D
解釋器的製做須要藉助lex和Yacc兩個工具來完成,在DEV C++環境下運行。
(1)先使用lex和Yacc的編程規則編寫好兩個文件:
圖6 生成詞法和語法解釋器的兩個文件
(2)而後進入兩個文件的所在目錄命令行窗口按順序輸入如下命令:
$env:Path += ";C:\usr\local\wbin"
flex gr1.txt
bison -y -d gr2.txt
(3)最後將生成的兩個.c文件添加到同一項目中運行便可。
詞法文件編碼:
圖7詞法分析
文法文件編碼:
圖8 語法分析
四則運算能夠正常執行:
圖9 運算測試
如下爲一些極端測試:
圖10 極端測試
根據以上一些極端測試,能夠看出,大部分輸入錯誤該程序均可以進行適當的處理。一些特出錯誤,程序識別不出來的數據,會直接結束運行。對於大數相乘程序會用浮點數的形式給出結果,並不能算出精確值,最大可精確到小數點後5位。因此能夠看出功能仍是比較侷限的。
在此次試驗中我感到lex和Yacc這兩個工具的強大,它們能夠幫助咱們快速生成很是全面解釋器,使咱們的工做轉移到詞法和語法分析上。相信在接下來的學習中咱們會對計算機編譯原理有更深層次的理解。
#include<stdio.h>
#include<ctype.h> //包含isspace函數 ,isalnum()是否字母或數字,isalpha()是否字母
//預處理是以>做爲結束,字符是以'做爲結束,字符串是以"做爲結束,
//數值型常量只能根據當前字符的下一個字符是否是數字判斷是否結束,標識符也是根據下一個字符判斷。因此要記錄下一個字符。
int current_ch, next_ch,k=0;
int flag = 0;
char word[1024];
FILE *fp;
//讀下一個字符
void read_next_char()
{
current_ch = fgetc(fp);
}
//預處理指令:
void get_preprocessing_line()
{
k = 1;
while(1)
{
word[k++]=fgetc(fp);
if(word[k-1] == '>') //碰到>跳出循環
{
printf("預處理指令:");
break;
}
}
}
//提取字符型常量:\'
void get_char_const()
{
k = 1;
while(1)
{
word[k++]=fgetc(fp);
if(word[k-1] == '\'') //碰到'跳出循環
{
printf("字符型常量:");
break;
}
}
}
//提取字符串常量
void get_string_const()
{
k = 1;
while(1)
{
word[k++]=fgetc(fp);
if(word[k-1] == '\"') //碰到"跳出循環
{
printf("字符串常量:");
break;
}
}
}
//提取數值型常量,讀取文本只有整數:
void get_num_const()
{
k = 1;
while(1)
{
word[k++]=fgetc(fp);
if(word[k-1] - '0' < 0 || word[k-1] - '0' > 9) //碰到非數字跳出循環 ,要把char型word轉爲int型數字
{
next_ch = word[k-1]; //記錄最後的字符
word[k-1] = '\0';
printf("數值型常量:");
break;
}
}
}
//提取標識符:
void get_identifier()
{
k = 1;
while(1)
{
word[k++]=fgetc(fp);
if(!(isalnum(word[k-1]) || word[k-1] == '_')) //碰到非字母或數字或下劃線跳出循環
{
next_ch = word[k-1]; //記錄最後的字符
word[k-1] = '\0';
printf("標識符:");
break;
}
}
}
//提取運算符
void get_operator()
{
word[1] = next_ch;
printf("多字符運算符:");
}
//提取分隔符
void get_seperator()
{
printf("分隔符:");
}
//詞法分析部分的基本流程
int lexical_analyzer(FILE * input_file)
{
int i;
int ch;
while(isspace(current_ch)) read_next_char();//碰到空格,當前word結束
while((ch = current_ch) != EOF)
{
word[0] = ch;
if(ch == '#') get_preprocessing_line();//預處理指令:
else if(ch== '\'') get_char_const();//提取字符常量:\'
else if(ch=='"') get_string_const();//提取字符串常量
else if(ch>='0'&&ch<='9') {get_num_const();current_ch = next_ch;flag = 1;}//提取數值型常量:
else if(ch=='_' || isalpha(ch)) {get_identifier();current_ch = next_ch;flag = 1;}//提取標識符下劃線或字母開頭:isalpha()判斷字符變量c是否爲字母
else if(ch == (int)'+' || ch == (int)'-' || ch == (int)'*' || ch == (int)'/' || ch == (int)'<' || ch == (int)'>' || ch == (int)'!' || ch == (int)'=') //提取運算符
{
next_ch = fgetc(fp);
if(next_ch != '+' && next_ch != '-' && next_ch != '=') //若是下一個字符不是+-=,那麼是單字符運算符,不然是多字符運算符
{printf("單字符運算符") ;current_ch = next_ch;flag = 1;}
else
{get_operator();}
}
else if(ch == (int)'(' || ch == (int)')' || ch == (int)',' || ch == (int)';' || ch == (int)'{' || ch == (int)'}') get_seperator();//提取分隔符
else { printf("Unknown syntactics:%c(0X%X)\n",ch,ch); return 1; }
printf("%s\n", word);
for(i = 0;i < k;i++) //word置空
{
word[i] = '\0';
}
do{
if(flag==0)
read_next_char();
flag=0;
}while(isspace(current_ch));
}
}
int main()
{
fp = fopen("test.txt","r");
if(fp == NULL)
{
printf("沒法找到文件\n");
return 0;
}
current_ch = fgetc(fp);//當前字符
lexical_analyzer(fp);
return 0;
}