中文信息處理實驗

時間 2019-11-12

標籤中文信息處理實驗简体版

原文原文鏈接

一. 實驗目的c++

1.熟悉漢字的機內碼，掌握以十六進制形式查看文件內容的方法。windows

2.理解GB2312--80中漢字的分佈規律，掌握區位碼到漢字機內碼的轉換規則。數組

3.掌握編寫程序對文本文件和二進制文件的讀寫操做。編輯器

4.瞭解中文信息處理的主要研究領域與研究現狀。編碼

二. 實驗內容spa

1.使用十六進制編輯器查看本身姓名的內機碼。翻譯

2.編寫漢字區位碼查看程序，讓用戶輸入一個漢字從而顯示該漢字的區位碼。3d

3.熟悉文件操做，編寫程序將一樣的數據分別寫入文本文件和二進制文件，比較兩者的區別。code

4.瞭解中英機器翻譯系統的研究進展與實用狀況。blog

三. 實驗步驟和結果

<1.>查看本身姓名的內碼

1.打開windows附帶的記事本。

2.在記事本中使用漢字輸入法輸入本身的學號和姓名。

3.以「name.txt」命名保存時編碼選擇「ANSI」

4.關閉記事本

5.查看文件屬性，記錄文件大小（單位：字節）

6.用十六進制編輯器打開「name.txt」文件，記錄下該文件的十六進制內容。

十六進制：

7.關閉編輯器。

8.打開文本文件從新以「name1.txt」名「Unicode」編碼格式保存。

9.用十六進制編輯器打開「name1.txt」文件，記錄下該文件的內容。

<2.>編寫漢字區位碼查看程序

1.建立vs2013中的c++控制檯項目

3.在源程序編輯窗口編寫代碼，程序中定義一個具備三個元素的字符數組，而後接受用戶一個漢字，接着將漢字的兩個字節分別減去A0H，最後以十進制輸出，就能夠獲得該漢字的區位碼。，運行程序，輸入以下內容，得出結果。

C++代碼：

國：

碼：

國家：

AB：

<3.>熟悉文件操做

1.建立c++工程

2.以文本方式建立文件「text.txt」和二進制方式建立文件「bin.dat」，產生10個1~100之間的隨機正整數分別寫入這兩個文件，其中文本文件中每一個整數寫一行。

代碼：

產生隨機整數：

以十六進制打開text.txt文件：

以十六進制打開bin.dat文件：

區別：兩個文件大小不同了，猜想跟存儲方式不同，文本文件存儲根據相關的編碼方式對應的數字的二進制碼存儲，而二進制文件則直接保存數字的二進制值。

<4.>瞭解漢英翻譯系統的進展

1.寫出翻譯系統：

有道翻譯、百度翻譯

2.以下英文句：He saw a duck with a telescope。寫出理解的翻譯：

他從望遠鏡裏看到了一隻鴨子。

3.用不一樣的翻譯系統得出翻譯結果：

有道：他用望遠鏡看見一隻鴨子。

百度：他看見一隻帶望遠鏡的鴨子。

4.請你評價目前的翻譯系統：

總的來講目前翻譯系統已經取得了很大的進步，可是還不夠智能，不會用合理優美的句子來替換原句，這點對於咱們來講還須要加大研究力度纔好。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。