Natural Language Processing with Python - Chapter 0

一年以前,我作夢也想不到會來這裏寫技術總結。誤打誤撞來到了上海西南某高校,成爲了文科專業的工科男,如今天天除了膜ha,就是惡補CS。導師是作計算語言學的,因此當務之急就是先自學計算機天然語言處理,打好底子準備作科研(認真臉)。python

進入正題,從圖書館找了本「Natural Language Processing with Python」 (影印版),書長這個樣子,做者是Steven Bird, Ewan Klein和Edward Loper。粘貼個豆瓣連接供參考:https://book.douban.com/subject/5336893/編程

對於本書,讀者大多將其定義爲:NLTK的工具書(再加個「入門級」的定語或許更佳恰當),理論性還有待深刻。可是對於小白來說先刷一遍再說,簡單、粗暴、實用、能迅速上手纔是王道!vim

順便再說一下爲何要選Python,其實對於小白來說,與其浪費時間去糾結學什麼編程語言,不如花時間去多敲幾行代碼。Python語言自己好很差小白我沒資格評價,可是這裏必需要說一句Python有不少功能強大的第三方工具包(package),這些工具包是解決具體學科具體問題的利器!好比在天然語言處理方面,NLTK(Natural Language Toolkit)功能極其強大。編程語言

好了,此次終於能進入正題了。Chapter 0能夠視爲學習前的準備工做,正所謂「工欲善其事,必先利其器」。編輯器

IDE: PyCharm
IDE我選了PyCharm,聽說很好用。下載及安裝方法以下:
1.Python官網下載Python,打開terminal,輸入python顯示版本信息
2.下載Python開發的IDE PyCharm,Professional版的激活碼能夠求助度娘

關於Python文件編碼聲明
1.位置:必須放在python文件的第一行或第二行
2.格式: a. 帶等於號的
1 #coding=<encoding name>

           b. 帶冒號的,最多見,大多數編輯器均可以識別               工具

1 #!/usr/bin/python
2 # -*- coding: <encoding name> -*-             
            c. vim的:
1 #!/usr/bin/python               
2 # vim: set fileencoding=<encoding name>
3.做用:告訴python interpreter如何解釋字符串的編碼
           若是沒有文件編碼類型聲明,則python默認以ASCII編碼去處理。
           若是沒有聲明代碼,可是文件中又包含非ASCII編碼的字符的話,python解釋器去解釋python文件天然會報錯。
4.例子:第一行說明腳本語言是python的;第二行用來指定文件編碼爲utf-8的 。   
1 #!/usr/bin/python                 
2 # -*- coding: utf-8 -*-                          
5.注意:單個python源碼文件中只容許用單一的編碼,不容許嵌入多種編碼,不然會報錯!!!
6.Python分詞器+編譯器工做邏輯:
            a. 讀取文件
            b. 不一樣的文件,根據其聲明的編碼去解析爲Unicode
            c. 轉換爲UTF-8字符串
            d. 針對UTF-8字符串去分詞
            e. 編譯之,建立Unicode對象
7.UTF-8: 8-bit Unicode Transformation Format,是一種針對Unicode的可變長度字符編碼,又稱萬國碼。
             總之,要想讓Python程序支持中文,就須要在Python源文件開頭加上這樣一段編碼聲明。

My First Python Program - Hello World!
1.File --> New Project --> 選擇Project的保存路徑(我的感受很像R語言中working directory的設定)
2.右鍵剛剛建好的project --> New --> Python File --> 給File命個名(我的感受這就是腳本文件,相似於R語言中的script)
3.敲入文件編碼聲明(其實並沒必要要,由於咱們輸入英文"Hello World!",而不是中文)
4.Hello World
1 print ("Hello World!") 
5.這時會發現運行及調試按鈕(綠色三角形)是灰色的,由於咱們尚未設置控制檯。

 
python設置控制檯
1.點擊運行旁邊的黑色倒三角,進入Run/Debug Configurations配置界面(或者Run —> Edit Configurations)
2.點擊綠色加號,新建一個配置項,並選擇python(由於是用源代碼是python程序)
3.配置界面裏Name一欄寫一個名字,點擊Script選項,找到剛纔寫的 .py 文件
4.點擊OK,自動返回編輯界面,這時運行及調試按鈕所有變綠
5.點擊運行,觀看輸出結果

Installing Packages in PyCharm - Mac
1.Pycharm —> preference —> project interpreter
2. +  for adding packages
    -   for deleting packages
    -> for updating packages

NLTK (Natural Language Toolkit)
經過輸入如下代碼,調用NLTK這個包,而後下載咱們所需的data sets(實際上就是書中所用的語料)
1 import nltk
2 nltk.download()
Run and you will get to the NLTK Downloader
The Collections tab on the downloader shows how the packages are grouped into sets, and you should select the line labeled book to obtain all data required for the examples and exercises in this book.
我表示下載速度讓人捉雞,雖然MIT (Minhang Institute of Technology,譯做:閔行男子職業技術學院)的網速至關快,並且不用交網費!!!

吃飯前,仍是要膜一下!遛了。 
相關文章
相關標籤/搜索