《python天然語言處理》導航目錄

時間 2019-11-17

標籤 python天然語言處理導航目錄欄目 Python 简体版

原文原文鏈接

微信公衆號：數據運營人
本文爲博主原創，如需轉載請註明出處。html

python天然語言處理

本書目錄

第1章語言處理與python1.1 語言計算：文本和單詞python入門NLTK入門搜索文本計數詞彙1.2 近觀python：將文本當作詞鏈表鏈表索引列表變量字符串1.3 計算語言：簡單的統計頻率分佈細粒度的選擇詞詞語搭配和雙連詞計數其餘東西1.4 回到python：決策與控制條件對每一個元素進行操做嵌套代碼塊條件循環1.5 自動理解天然語言詞義消歧指代消解自動生成語言機器翻譯人機對話系統文本的含義NLP的侷限性1.6 小結1.7 練習第2章得到文本預料和詞彙資源2.1 獲取文本語料庫古騰堡語料庫網絡和聊天文本布朗語料庫路透社語料庫就任演說語料庫標註文本語料庫在其餘語言的語料庫文本語料庫結構載入你本身的語料庫2.2 條件頻率分佈條件和事件按文體計數詞彙繪製分佈圖和分佈表使用雙連詞生成隨機文本2.3 更多關於python：代碼重用使用文本編輯器建立程序函數模塊2.4 詞典資源詞彙列表語料庫發音的詞典比較詞表2.5 WordNet意義與同義詞WordNet的層次結構更多的詞彙關係語義類似度2.6 小結2.7 練習第3章加工原料文本3.1 從網絡和硬盤訪問文本電子書處理的HTML處理搜索引擎的結果讀取本地文件從PDF/MSWord及其餘二進制格式中提取文本捕獲用戶輸入NLP的流程3.2 字符串：對底層的文本處理字符串的基本操做輸入字符串訪問單個字符訪問子字符串更多的字符串操做鏈表與字符串的差別3.3 使用Unicode進行文字處理什麼是Unicode?從文件中提取已編碼文本在python中使用本地編碼3.4 使用正則表達式檢測詞組搭配使用基本元字符範圍與閉包3.5 正則表達式的有益應用提取字符快在字符塊上作更多事情查找詞幹搜索已分詞文本3.6 規範化文本詞幹提取器詞性歸併3.7 用正則表達式爲文本分詞分詞的簡單方法NLTK的正則表達式分詞器分詞的進一步問題3.8 分割斷句分詞3.9 格式化：從鏈表到字符串從鏈表到字符串字符串與格式化排列將結果寫入文件文本換行3.10 小結3.11 練習第4章編寫結構化程序4.1 回到基礎賦值等式條件語句4.2 序列序列類型上的操做合併不一樣類型的序列產生器表達式4.3 風格的問題python代碼風格過程風格與聲明風格計數器的一些合理用途4.4 函數：結構化編程的基礎函數的輸入和輸出參數傳遞變量的做用域參數類型檢查功能分解文檔說明函數4.5 更多關於函數做爲參數的函數累計函數高階函數參數的命名4.6 程序開發python模塊結構多模塊程序偏差源頭調試技術防護性編程4.7 算法設計遞歸權衡空間與時間動態規劃4.8 python庫的樣例matplotlib繪圖工具NetworkXCSVnumpy其餘python庫4.9 小結4.10 練習第5章分類和標註詞彙5.1 使用詞性標註器5.2 標註語料庫表示已標註的標識符讀取已標註的語料庫簡化的詞性標記集名詞動詞形容詞和副詞爲簡化的標記探索已標註的語料庫5.3 使用python字典映射詞及其屬性索引鏈表VS字典python字典定義字典默認字典遞增的更新字典複雜的鍵和值顛倒字典5.4 自動標註默認標註器正則表達式標註器查詢標註器評估5.5 N-gram標註一元標註（Unigram Tagging）分離訓練和測試數據通常的N-gram的標註組合標註器標註生詞存儲標註器性能限制跨句子邊界標註5.6 基於轉換的標註5.7 如何肯定一個詞的分類形態學線索句法線索語義線索新詞詞性標記集中的形態學5.8 小結5.9 練習第6章學習分類文本6.1 有監督分類性別鑑定選擇正確的特徵文檔分類探索上下文語境序列分類其餘序列分類方法6.2 有監督分類的更多例子句子分割識別對話行爲類型識別文字蘊含擴展到大型數據集6.3 評估測試集準確度精確度和召回率混淆矩陣交叉驗證6.4 決策樹熵和信息增益6.5 樸素貝葉斯分類器潛在機率模型零計數和平滑非二元特徵獨立的樸素雙重技術的緣由6.6 最大熵分類器最大熵模型熵的最大化生成式分類器對比條件式分類器6.7 爲語言模式建模模型告訴咱們什麼？6.8 小結6.9 練習第7章從文本提取信息7.1 信息提取信息提取結構7.2 分塊名詞短語分塊標記模式用正則表達式分塊探索文本語料庫加縫隙塊的表示：標記與樹7.3 開發和評估分塊器讀取IOB格式與CoNLL2000分塊語料庫簡單評估和基準訓練基於分類器的分塊器7.4 語言結構中的遞歸用級聯分塊器構建嵌套結構樹樹遍歷路透社語料庫7.5 命名實體識別7.6 關係抽取7.7 小結7.8 練習第8章分析句子結構8.1 一些語法困境語言數據和無限可能性廣泛存在的歧義8.2 文法有什麼用？超越n-grams8.3 上下文無關文法一種簡單的文法寫你本身的文法句法結構中的遞歸8.4 上下文無關文法分析遞歸降低分析移進-規約分析作角落分析器符合語句規則的字串表8.5 依存關係和依存文法配價與詞彙擴大規模8.6 文法開發樹庫與文法有害的歧義加權文法8.7 小結8.8 練習第9章創建基本特徵的文法9.1 文法特徵句法協議使用屬性和約束術語9.2 處理特徵結構包含和統一9.3 擴轉基本特徵的文法子類別核心詞回顧助動詞與倒裝無限制依賴成分德語中的格和性別9.4 小結9.5 練習第10章分析句子的意思10.1 天然語言理解查詢數據庫天然語言、語義和邏輯10.2 命名邏輯10.3 一階邏輯句法一階定理證實一階邏輯語言總結真值模型獨立變量和賦值量化量詞範圍歧義模型的創建10.4 英語句子的語義基於特徵的文法中的合成語義學lambda驗算量化的NP及物動詞再述量詞歧義10.5 段落語義層段落表示理論段落處理10.6 小結10.7 練習第11章語言數據管理11.1 語料庫結構：一個案例研究TIMIT的結構主要設計特色基本數據類型11.2 語料庫生命週期語料庫建立的三種方案質量控制維護與演變11.3 數據採集從網上獲取數據從字處理器文件獲取數據從電子表格和數據庫中獲取數據轉換數據格式決定要包含標註層標準和工具處理瀕危語言時特別注意事項11.4 使用XML語言結構中使用XMLXML的做用ElementTree接口使用ElementTree訪問Toolbox數據格式化條目11.5 使用Toolbox數據爲每一個條目添加一個字段驗證Toolbox詞彙11.6 使用OLAC元數據描述語言資源元數據是什麼？OLAC:開放語言檔案社區11.7 小結11.8 練習python

第1章語言處理與python

1.1 語言計算：文本和單詞

python入門

NLTK入門

搜索文本

計數詞彙

1.2 近觀python：將文本當作詞鏈表

鏈表

索引列表

變量

字符串

1.3 計算語言：簡單的統計

頻率分佈

細粒度的選擇詞

詞語搭配和雙連詞

計數其餘東西

1.4 回到python：決策與控制

條件

對每一個元素進行操做

嵌套代碼塊

條件循環

1.5 自動理解天然語言

詞義消歧

指代消解

自動生成語言

機器翻譯

人機對話系統

文本的含義

NLP的侷限性

1.6 小結

1.7 練習

第2章得到文本預料和詞彙資源

2.1 獲取文本語料庫

古騰堡語料庫

網絡和聊天文本

布朗語料庫

路透社語料庫

就任演說語料庫

標註文本語料庫

在其餘語言的語料庫

文本語料庫結構

載入你本身的語料庫

2.2 條件頻率分佈

條件和事件

按文體計數詞彙

繪製分佈圖和分佈表

使用雙連詞生成隨機文本

2.3 更多關於python：代碼重用

使用文本編輯器建立程序

函數

模塊

2.4 詞典資源

詞彙列表語料庫

發音的詞典

比較詞表

2.5 WordNet

意義與同義詞

WordNet的層次結構

更多的詞彙關係

語義類似度

2.6 小結

2.7 練習

第3章加工原料文本

3.1 從網絡和硬盤訪問文本

電子書

處理的HTML

處理搜索引擎的結果

讀取本地文件

從PDF/MSWord及其餘二進制格式中提取文本

捕獲用戶輸入

NLP的流程

3.2 字符串：對底層的文本處理

字符串的基本操做

輸入字符串

訪問單個字符

訪問子字符串

更多的字符串操做

鏈表與字符串的差別

3.3 使用Unicode進行文字處理

什麼是Unicode?

從文件中提取已編碼文本

在python中使用本地編碼

3.4 使用正則表達式檢測詞組搭配

使用基本元字符

範圍與閉包

3.5 正則表達式的有益應用

提取字符快

在字符塊上作更多事情

查找詞幹

搜索已分詞文本

3.6 規範化文本

詞幹提取器

詞性歸併

3.7 用正則表達式爲文本分詞

分詞的簡單方法

NLTK的正則表達式分詞器

分詞的進一步問題

3.8 分割

斷句

分詞

3.9 格式化：從鏈表到字符串

從鏈表到字符串

字符串與格式化

排列

將結果寫入文件

文本換行

3.10 小結

3.11 練習

第4章編寫結構化程序

4.1 回到基礎

賦值

等式

條件語句

4.2 序列

序列類型上的操做

合併不一樣類型的序列

產生器表達式

4.3 風格的問題

python代碼風格

過程風格與聲明風格

計數器的一些合理用途

4.4 函數：結構化編程的基礎

函數的輸入和輸出

參數傳遞

變量的做用域

參數類型檢查

功能分解

文檔說明函數

4.5 更多關於函數

做爲參數的函數

累計函數

高階函數

參數的命名

4.6 程序開發

python模塊結構

多模塊程序

偏差源頭

調試技術

防護性編程

4.7 算法設計

遞歸

權衡空間與時間

動態規劃

4.8 python庫的樣例

matplotlib繪圖工具

NetworkX

CSV

numpy

其餘python庫

4.9 小結

4.10 練習

第5章分類和標註詞彙

5.1 使用詞性標註器

5.2 標註語料庫

表示已標註的標識符

讀取已標註的語料庫

簡化的詞性標記集

名詞

動詞

形容詞和副詞

爲簡化的標記

探索已標註的語料庫

5.3 使用python字典映射詞及其屬性

索引鏈表VS字典

python字典

定義字典

默認字典

遞增的更新字典

複雜的鍵和值

顛倒字典

5.4 自動標註

默認標註器

正則表達式標註器

查詢標註器

評估

5.5 N-gram標註

一元標註（Unigram Tagging）

分離訓練和測試數據

通常的N-gram的標註

組合標註器

標註生詞

存儲標註器

性能限制

跨句子邊界標註

5.6 基於轉換的標註

5.7 如何肯定一個詞的分類

形態學線索

句法線索

語義線索

新詞

詞性標記集中的形態學

5.8 小結

5.9 練習

第6章學習分類文本

6.1 有監督分類

性別鑑定

選擇正確的特徵

文檔分類

探索上下文語境

序列分類

其餘序列分類方法

6.2 有監督分類的更多例子

句子分割

識別對話行爲類型

識別文字蘊含

擴展到大型數據集

6.3 評估

測試集

準確度

精確度和召回率

混淆矩陣

交叉驗證

6.4 決策樹

熵和信息增益

6.5 樸素貝葉斯分類器

潛在機率模型

零計數和平滑

非二元特徵

獨立的樸素

雙重技術的緣由

6.6 最大熵分類器

最大熵模型

熵的最大化

生成式分類器對比條件式分類器

6.7 爲語言模式建模

模型告訴咱們什麼？

6.8 小結

6.9 練習

第7章從文本提取信息

7.1 信息提取

信息提取結構

7.2 分塊

名詞短語分塊

標記模式

用正則表達式分塊

探索文本語料庫

加縫隙

塊的表示：標記與樹

7.3 開發和評估分塊器

讀取IOB格式與CoNLL2000分塊語料庫

簡單評估和基準

訓練基於分類器的分塊器

7.4 語言結構中的遞歸

用級聯分塊器構建嵌套結構

樹

樹遍歷

路透社語料庫

7.5 命名實體識別

7.6 關係抽取

7.7 小結

7.8 練習

第8章分析句子結構

8.1 一些語法困境

語言數據和無限可能性

廣泛存在的歧義

8.2 文法有什麼用？

超越n-grams

8.3 上下文無關文法

一種簡單的文法

寫你本身的文法

句法結構中的遞歸

8.4 上下文無關文法分析

遞歸降低分析

移進-規約分析

作角落分析器

符合語句規則的字串表

8.5 依存關係和依存文法

配價與詞彙

擴大規模

8.6 文法開發

樹庫與文法

有害的歧義

加權文法

8.7 小結

8.8 練習

第9章創建基本特徵的文法

9.1 文法特徵

句法協議

使用屬性和約束

術語

9.2 處理特徵結構

包含和統一

9.3 擴轉基本特徵的文法

子類別

核心詞回顧

助動詞與倒裝

無限制依賴成分

德語中的格和性別

9.4 小結

9.5 練習

第10章分析句子的意思

10.1 天然語言理解

查詢數據庫

天然語言、語義和邏輯

10.2 命名邏輯

10.3 一階邏輯

句法

一階定理證實

一階邏輯語言總結

真值模型

獨立變量和賦值

量化

量詞範圍歧義

模型的創建

10.4 英語句子的語義

基於特徵的文法中的合成語義學

lambda驗算

量化的NP

及物動詞

再述量詞歧義

10.5 段落語義層

段落表示理論

段落處理

10.6 小結

10.7 練習

第11章語言數據管理

11.1 語料庫結構：一個案例研究

TIMIT的結構

主要設計特色

基本數據類型

11.2 語料庫生命週期

語料庫建立的三種方案

質量控制

維護與演變

11.3 數據採集

從網上獲取數據

從字處理器文件獲取數據

從電子表格和數據庫中獲取數據

轉換數據格式

決定要包含標註層

標準和工具

處理瀕危語言時特別注意事項

11.4 使用XML

語言結構中使用XML

XML的做用

ElementTree接口

使用ElementTree訪問Toolbox數據

格式化條目

11.5 使用Toolbox數據

爲每一個條目添加一個字段

驗證Toolbox詞彙

11.6 使用OLAC元數據描述語言資源

元數據是什麼？

OLAC:開放語言檔案社區

11.7 小結

11.8 練習

相關文章

相關標籤/搜索

python天然語言處理

天然語言處理篇

天然語言處理

精通Python天然語言處理

python進行天然語言處理

深度學習天然語言處理

一文概述天然語言處理

手撕 - 天然語言處理

天然語言處理入門

紅包項目實戰

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<