中文信息處理實驗

 

一. 實驗目的c++

1.熟悉漢字的機內碼,掌握以十六進制形式查看文件內容的方法。windows

2.理解GB2312--80中漢字的分佈規律,掌握區位碼到漢字機內碼的轉換規則。數組

3.掌握編寫程序對文本文件和二進制文件的讀寫操做。編輯器

4.瞭解中文信息處理的主要研究領域與研究現狀。編碼

 

二. 實驗內容spa

1.使用十六進制編輯器查看本身姓名的內機碼。翻譯

2.編寫漢字區位碼查看程序,讓用戶輸入一個漢字從而顯示該漢字的區位碼。3d

3.熟悉文件操做,編寫程序將一樣的數據分別寫入文本文件和二進制文件,比較兩者的區別。code

4.瞭解中英機器翻譯系統的研究進展與實用狀況。blog

 

三. 實驗步驟和結果

<1.>查看本身姓名的內碼

1.打開windows附帶的記事本。

2.在記事本中使用漢字輸入法輸入本身的學號和姓名。

3.以「name.txt」命名保存時編碼選擇「ANSI

 

 

4.關閉記事本

5.查看文件屬性,記錄文件大小(單位:字節)

 

 

6.用十六進制編輯器打開name.txt」文件,記錄下該文件的十六進制內容。

 

十六進制:

 

7.關閉編輯器。

8.打開文本文件從新以name1.txt」名「Unicode」編碼格式保存。

 

 

9.用十六進制編輯器打開name1.txt」文件,記錄下該文件的內容。

 

<2.>編寫漢字區位碼查看程序

1.建立vs2013中的c++控制檯項目

2.

 

3.在源程序編輯窗口編寫代碼,程序中定義一個具備三個元素的字符數組,而後接受用戶一個漢字,接着將漢字的兩個字節分別減去A0H,最後以十進制輸出,就能夠獲得該漢字的區位碼。,運行程序,輸入以下內容,得出結果。

C++代碼:

 

國:

碼:

國家:

AB

 

<3.>熟悉文件操做

1.建立c++工程

2.以文本方式建立文件text.txt」和二進制方式建立文件「bin.dat」,產生101~100之間的隨機正整數分別寫入這兩個文件,其中文本文件中每一個整數寫一行。

代碼:

 

產生隨機整數:

 

以十六進制打開text.txt文件:

 

 

以十六進制打開bin.dat文件:

 

區別:兩個文件大小不同了,猜想跟存儲方式不同,文本文件存儲根據相關的編碼方式對應的數字的二進制碼存儲,而二進制文件則直接保存數字的二進制值。

 

<4.>瞭解漢英翻譯系統的進展

1.寫出翻譯系統:

有道翻譯、百度翻譯

2.以下英文句:He saw a duck with a telescope。寫出理解的翻譯:

他從望遠鏡裏看到了一隻鴨子。

3.用不一樣的翻譯系統得出翻譯結果:

有道:他用望遠鏡看見一隻鴨子。

百度:他看見一隻帶望遠鏡的鴨子。

4.請你評價目前的翻譯系統:

總的來講目前翻譯系統已經取得了很大的進步,可是還不夠智能,不會用合理優美的句子來替換原句,這點對於咱們來講還須要加大研究力度纔好。

相關文章
相關標籤/搜索