《python天然語言處理》導航目錄

微信公衆號:數據運營人
本文爲博主原創,如需轉載請註明出處。html

python天然語言處理

本書目錄

第1章 語言處理與python1.1 語言計算:文本和單詞python入門NLTK入門搜索文本計數詞彙1.2 近觀python:將文本當作詞鏈表鏈表索引列表變量字符串1.3 計算語言:簡單的統計頻率分佈細粒度的選擇詞詞語搭配和雙連詞計數其餘東西1.4 回到python:決策與控制條件對每一個元素進行操做嵌套代碼塊條件循環1.5 自動理解天然語言詞義消歧指代消解自動生成語言機器翻譯人機對話系統文本的含義NLP的侷限性1.6 小結1.7 練習第2章 得到文本預料和詞彙資源2.1 獲取文本語料庫古騰堡語料庫網絡和聊天文本布朗語料庫路透社語料庫就任演說語料庫標註文本語料庫在其餘語言的語料庫文本語料庫結構載入你本身的語料庫2.2 條件頻率分佈條件和事件按文體計數詞彙繪製分佈圖和分佈表使用雙連詞生成隨機文本2.3 更多關於python:代碼重用使用文本編輯器建立程序函數模塊2.4 詞典資源詞彙列表語料庫發音的詞典比較詞表2.5 WordNet意義與同義詞WordNet的層次結構更多的詞彙關係語義類似度2.6 小結2.7 練習第3章 加工原料文本3.1 從網絡和硬盤訪問文本電子書處理的HTML處理搜索引擎的結果讀取本地文件從PDF/MSWord及其餘二進制格式中提取文本捕獲用戶輸入NLP的流程3.2 字符串:對底層的文本處理字符串的基本操做輸入字符串訪問單個字符訪問子字符串更多的字符串操做鏈表與字符串的差別3.3 使用Unicode進行文字處理什麼是Unicode?從文件中提取已編碼文本在python中使用本地編碼3.4 使用正則表達式檢測詞組搭配使用基本元字符範圍與閉包3.5 正則表達式的有益應用提取字符快在字符塊上作更多事情查找詞幹搜索已分詞文本3.6 規範化文本詞幹提取器詞性歸併3.7 用正則表達式爲文本分詞分詞的簡單方法NLTK的正則表達式分詞器分詞的進一步問題3.8 分割斷句分詞3.9 格式化:從鏈表到字符串從鏈表到字符串字符串與格式化排列將結果寫入文件文本換行3.10 小結3.11 練習第4章 編寫結構化程序4.1 回到基礎賦值等式條件語句4.2 序列序列類型上的操做合併不一樣類型的序列產生器表達式4.3 風格的問題python代碼風格過程風格與聲明風格計數器的一些合理用途4.4 函數:結構化編程的基礎函數的輸入和輸出參數傳遞變量的做用域參數類型檢查功能分解文檔說明函數4.5 更多關於函數做爲參數的函數累計函數高階函數參數的命名4.6 程序開發python模塊結構多模塊程序偏差源頭調試技術防護性編程4.7 算法設計遞歸權衡空間與時間動態規劃4.8 python庫的樣例matplotlib繪圖工具NetworkXCSVnumpy其餘python庫4.9 小結4.10 練習第5章 分類和標註詞彙5.1 使用詞性標註器5.2 標註語料庫表示已標註的標識符讀取已標註的語料庫簡化的詞性標記集名詞動詞形容詞和副詞爲簡化的標記探索已標註的語料庫5.3 使用python字典映射詞及其屬性索引鏈表VS字典python字典定義字典默認字典遞增的更新字典複雜的鍵和值顛倒字典5.4 自動標註默認標註器正則表達式標註器查詢標註器評估5.5 N-gram標註一元標註(Unigram Tagging)分離訓練和測試數據通常的N-gram的標註組合標註器標註生詞存儲標註器性能限制跨句子邊界標註5.6 基於轉換的標註5.7 如何肯定一個詞的分類形態學線索句法線索語義線索新詞詞性標記集中的形態學5.8 小結5.9 練習第6章 學習分類文本6.1 有監督分類性別鑑定選擇正確的特徵文檔分類探索上下文語境序列分類其餘序列分類方法6.2 有監督分類的更多例子句子分割識別對話行爲類型識別文字蘊含擴展到大型數據集6.3 評估測試集準確度精確度和召回率混淆矩陣交叉驗證6.4 決策樹熵和信息增益6.5 樸素貝葉斯分類器潛在機率模型零計數和平滑非二元特徵獨立的樸素雙重技術的緣由6.6 最大熵分類器最大熵模型熵的最大化生成式分類器對比條件式分類器6.7 爲語言模式建模模型告訴咱們什麼?6.8 小結6.9 練習第7章 從文本提取信息7.1 信息提取信息提取結構7.2 分塊名詞短語分塊標記模式用正則表達式分塊探索文本語料庫加縫隙塊的表示:標記與樹7.3 開發和評估分塊器讀取IOB格式與CoNLL2000分塊語料庫簡單評估和基準訓練基於分類器的分塊器7.4 語言結構中的遞歸用級聯分塊器構建嵌套結構樹遍歷路透社語料庫7.5 命名實體識別7.6 關係抽取7.7 小結7.8 練習第8章 分析句子結構8.1 一些語法困境語言數據和無限可能性廣泛存在的歧義8.2 文法有什麼用?超越n-grams8.3 上下文無關文法一種簡單的文法寫你本身的文法句法結構中的遞歸8.4 上下文無關文法分析遞歸降低分析移進-規約分析作角落分析器符合語句規則的字串表8.5 依存關係和依存文法配價與詞彙擴大規模8.6 文法開發樹庫與文法有害的歧義加權文法8.7 小結8.8 練習第9章 創建基本特徵的文法9.1 文法特徵句法協議使用屬性和約束術語9.2 處理特徵結構包含和統一9.3 擴轉基本特徵的文法子類別核心詞回顧助動詞與倒裝無限制依賴成分德語中的格和性別9.4 小結9.5 練習第10章 分析句子的意思10.1 天然語言理解查詢數據庫天然語言、語義和邏輯10.2 命名邏輯10.3 一階邏輯句法一階定理證實一階邏輯語言總結真值模型獨立變量和賦值量化量詞範圍歧義模型的創建10.4 英語句子的語義基於特徵的文法中的合成語義學lambda驗算量化的NP及物動詞再述量詞歧義10.5 段落語義層段落表示理論段落處理10.6 小結10.7 練習第11章 語言數據管理11.1 語料庫結構:一個案例研究TIMIT的結構主要設計特色基本數據類型11.2 語料庫生命週期語料庫建立的三種方案質量控制維護與演變11.3 數據採集從網上獲取數據從字處理器文件獲取數據從電子表格和數據庫中獲取數據轉換數據格式決定要包含標註層標準和工具處理瀕危語言時特別注意事項11.4 使用XML語言結構中使用XMLXML的做用ElementTree接口使用ElementTree訪問Toolbox數據格式化條目11.5 使用Toolbox數據爲每一個條目添加一個字段驗證Toolbox詞彙11.6 使用OLAC元數據描述語言資源元數據是什麼?OLAC:開放語言檔案社區11.7 小結11.8 練習python

第1章 語言處理與python

1.1 語言計算:文本和單詞
python入門
NLTK入門
搜索文本
計數詞彙
1.2 近觀python:將文本當作詞鏈表
鏈表
索引列表
變量
字符串
1.3 計算語言:簡單的統計
頻率分佈
細粒度的選擇詞
詞語搭配和雙連詞
計數其餘東西
1.4 回到python:決策與控制
條件
對每一個元素進行操做
嵌套代碼塊
條件循環
1.5 自動理解天然語言
詞義消歧
指代消解
自動生成語言
機器翻譯
人機對話系統
文本的含義
NLP的侷限性
1.6 小結
1.7 練習

第2章 得到文本預料和詞彙資源

2.1 獲取文本語料庫
古騰堡語料庫
網絡和聊天文本
布朗語料庫
路透社語料庫
就任演說語料庫
標註文本語料庫
在其餘語言的語料庫
文本語料庫結構
載入你本身的語料庫
2.2 條件頻率分佈
條件和事件
按文體計數詞彙
繪製分佈圖和分佈表
使用雙連詞生成隨機文本
2.3 更多關於python:代碼重用
使用文本編輯器建立程序
函數
模塊
2.4 詞典資源
詞彙列表語料庫
發音的詞典
比較詞表
2.5 WordNet
意義與同義詞
WordNet的層次結構
更多的詞彙關係
語義類似度
2.6 小結
2.7 練習

第3章 加工原料文本

3.1 從網絡和硬盤訪問文本
電子書
處理的HTML
處理搜索引擎的結果
讀取本地文件
從PDF/MSWord及其餘二進制格式中提取文本
捕獲用戶輸入
NLP的流程
3.2 字符串:對底層的文本處理
字符串的基本操做
輸入字符串
訪問單個字符
訪問子字符串
更多的字符串操做
鏈表與字符串的差別
3.3 使用Unicode進行文字處理
什麼是Unicode?
從文件中提取已編碼文本
在python中使用本地編碼
3.4 使用正則表達式檢測詞組搭配
使用基本元字符
範圍與閉包
3.5 正則表達式的有益應用
提取字符快
在字符塊上作更多事情
查找詞幹
搜索已分詞文本
3.6 規範化文本
詞幹提取器
詞性歸併
3.7 用正則表達式爲文本分詞
分詞的簡單方法
NLTK的正則表達式分詞器
分詞的進一步問題
3.8 分割
斷句
分詞
3.9 格式化:從鏈表到字符串
從鏈表到字符串
字符串與格式化
排列
將結果寫入文件
文本換行
3.10 小結
3.11 練習

第4章 編寫結構化程序

4.1 回到基礎
賦值
等式
條件語句
4.2 序列
序列類型上的操做
合併不一樣類型的序列
產生器表達式
4.3 風格的問題
python代碼風格
過程風格與聲明風格
計數器的一些合理用途
4.4 函數:結構化編程的基礎
函數的輸入和輸出
參數傳遞
變量的做用域
參數類型檢查
功能分解
文檔說明函數
4.5 更多關於函數
做爲參數的函數
累計函數
高階函數
參數的命名
4.6 程序開發
python模塊結構
多模塊程序
偏差源頭
調試技術
防護性編程
4.7 算法設計
遞歸
權衡空間與時間
動態規劃
4.8 python庫的樣例
matplotlib繪圖工具
NetworkX
CSV
numpy
其餘python庫
4.9 小結
4.10 練習

第5章 分類和標註詞彙

5.1 使用詞性標註器
5.2 標註語料庫
表示已標註的標識符
讀取已標註的語料庫
簡化的詞性標記集
名詞
動詞
形容詞和副詞
爲簡化的標記
探索已標註的語料庫
5.3 使用python字典映射詞及其屬性
索引鏈表VS字典
python字典
定義字典
默認字典
遞增的更新字典
複雜的鍵和值
顛倒字典
5.4 自動標註
默認標註器
正則表達式標註器
查詢標註器
評估
5.5 N-gram標註
一元標註(Unigram Tagging)
分離訓練和測試數據
通常的N-gram的標註
組合標註器
標註生詞
存儲標註器
性能限制
跨句子邊界標註
5.6 基於轉換的標註
5.7 如何肯定一個詞的分類
形態學線索
句法線索
語義線索
新詞
詞性標記集中的形態學
5.8 小結
5.9 練習

第6章 學習分類文本

6.1 有監督分類
性別鑑定
選擇正確的特徵
文檔分類
探索上下文語境
序列分類
其餘序列分類方法
6.2 有監督分類的更多例子
句子分割
識別對話行爲類型
識別文字蘊含
擴展到大型數據集
6.3 評估
測試集
準確度
精確度和召回率
混淆矩陣
交叉驗證
6.4 決策樹
熵和信息增益
6.5 樸素貝葉斯分類器
潛在機率模型
零計數和平滑
非二元特徵
獨立的樸素
雙重技術的緣由
6.6 最大熵分類器
最大熵模型
熵的最大化
生成式分類器對比條件式分類器
6.7 爲語言模式建模
模型告訴咱們什麼?
6.8 小結
6.9 練習

第7章 從文本提取信息

7.1 信息提取
信息提取結構
7.2 分塊
名詞短語分塊
標記模式
用正則表達式分塊
探索文本語料庫
加縫隙
塊的表示:標記與樹
7.3 開發和評估分塊器
讀取IOB格式與CoNLL2000分塊語料庫
簡單評估和基準
訓練基於分類器的分塊器
7.4 語言結構中的遞歸
用級聯分塊器構建嵌套結構
樹遍歷
路透社語料庫
7.5 命名實體識別
7.6 關係抽取
7.7 小結
7.8 練習

第8章 分析句子結構

8.1 一些語法困境
語言數據和無限可能性
廣泛存在的歧義
8.2 文法有什麼用?
超越n-grams
8.3 上下文無關文法
一種簡單的文法
寫你本身的文法
句法結構中的遞歸
8.4 上下文無關文法分析
遞歸降低分析
移進-規約分析
作角落分析器
符合語句規則的字串表
8.5 依存關係和依存文法
配價與詞彙
擴大規模
8.6 文法開發
樹庫與文法
有害的歧義
加權文法
8.7 小結
8.8 練習

第9章 創建基本特徵的文法

9.1 文法特徵
句法協議
使用屬性和約束
術語
9.2 處理特徵結構
包含和統一
9.3 擴轉基本特徵的文法
子類別
核心詞回顧
助動詞與倒裝
無限制依賴成分
德語中的格和性別
9.4 小結
9.5 練習

第10章 分析句子的意思

10.1 天然語言理解
查詢數據庫
天然語言、語義和邏輯
10.2 命名邏輯
10.3 一階邏輯
句法
一階定理證實
一階邏輯語言總結
真值模型
獨立變量和賦值
量化
量詞範圍歧義
模型的創建
10.4 英語句子的語義
基於特徵的文法中的合成語義學
lambda驗算
量化的NP
及物動詞
再述量詞歧義
10.5 段落語義層
段落表示理論
段落處理
10.6 小結
10.7 練習

第11章 語言數據管理

11.1 語料庫結構:一個案例研究
TIMIT的結構
主要設計特色
基本數據類型
11.2 語料庫生命週期
語料庫建立的三種方案
質量控制
維護與演變
11.3 數據採集
從網上獲取數據
從字處理器文件獲取數據
從電子表格和數據庫中獲取數據
轉換數據格式
決定要包含標註層
標準和工具
處理瀕危語言時特別注意事項
11.4 使用XML
語言結構中使用XML
XML的做用
ElementTree接口
使用ElementTree訪問Toolbox數據
格式化條目
11.5 使用Toolbox數據
爲每一個條目添加一個字段
驗證Toolbox詞彙
11.6 使用OLAC元數據描述語言資源
元數據是什麼?
OLAC:開放語言檔案社區
11.7 小結
11.8 練習
相關文章
相關標籤/搜索