《使用Python進行自然語言處理》學習筆記五

第三章 加工原料文本 3.1 從網絡和硬盤訪問文本 1 電子書 古騰堡項目的其它文本可以在線獲得, 整個過程大概需要幾十秒(實驗室網絡不行是硬傷) 使用raw()可以得到原始的字符串。但是raw得到的數據絕對不是我們能直接拿去分析的,還要經過一些預處理。我們要將字符串分解爲詞和標點符號,正如我們在第 1 章中所看到的。這一步被稱爲分詞, 它產生我們所熟悉的結構,一個詞彙和標點符號的鏈表。 2處理的
相關文章
相關標籤/搜索