個人博文目錄整理

從2014年8月開始在博客園寫博客,至今已經積累了82篇,集中在機器學習、NLP、數據結構與算法、大數據、編程語言等方面。在此作個總結,之後還會陸續更新……html

1. 機器學習

【十大經典數據挖掘算法】系列:java

  1. C4.5
  2. K-Means
  3. SVM
  4. Apriori
  5. EM
  6. PageRank
  7. AdaBoost
  8. kNN
  9. Naïve Bayes
  10. CART

2. NLP

中文分詞

中文分詞工具thulac4j重磅發佈.python

【中文分詞】理論篇:算法

  1. 【中文分詞】簡單高效的MMSeg.
  2. 【中文分詞】隱馬爾可夫模型HMM.
  3. 【中文分詞】二階隱馬爾可夫模型2-HMM.
  4. 【中文分詞】最大熵馬爾可夫模型MEMM.
  5. 【中文分詞】條件隨機場CRF.
  6. 【中文分詞】結構化感知器SP.

【中文分詞】實踐篇:編程

  1. 開源中文分詞工具探析(一):ICTCLAS (NLPIR)
  2. 開源中文分詞工具探析(二):Jieba
  3. 開源中文分詞工具探析(三):Ansj
  4. 開源中文分詞工具探析(四):THULAC
  5. 開源中文分詞工具探析(五):FNLP
  6. 開源中文分詞工具探析(六):Stanford CoreNLP

3. 數據結構與算法

數據結構篇:數組

  1. Trie樹的應用:查詢IP地址的ISP.
  2. 多叉樹實現類目體系.
  3. Bloom Filter:海量數據的HashSet.
  4. 雙數組Trie樹 (Double-array Trie) 及其應用.

算法篇:數據結構

  1. 【模式匹配】KMP算法的前因後果.
  2. 【模式匹配】更快的Boyer-Moore算法.
  3. 【模式匹配】Aho-Corasick自動機.
  4. 【圖論】深刻理解Dijsktra算法.
  5. 【圖論】求無向連通圖的割點.
  6. 【圖論】有向無環圖的拓撲排序.
  7. 【動態規劃】最長公共子序列與最長公共子串.
  8. 連續子數組最大和.
  9. 最長迴文子串.
  10. Top K問題的兩種解決思路.

信息論與編碼篇:機器學習

  1. 【數據壓縮】Huffman編碼.
  2. 【數據壓縮】LZ77算法原理及實現.
  3. 【數據壓縮】LZ78算法原理及實現.
  4. 整數壓縮編碼 ZigZag.

【LeetCode題解】系列:編程語言

  1. 【LeetCode題解】二叉樹的遍歷.
  2. 【LeetCode題解】數組Array.
  3. 【LeetCode題解】鏈表Linked List.
  4. 【LeetCode題解】排序.

4. 大數據

SQL on Hadoop (Hive、Pig)系列:工具

  1. 經常使用HiveQL總結.
  2. Hive UDF初探.
  3. 【Pig源碼分析】談談Pig的數據模型.
  4. Pig 實現關鍵詞匹配.
  5. Pig + Ansj 統計中文文本詞頻.

OLAP (Kylin)系列:

  1. Kylin的cube模型.
  2. Apache Kylin 部署之不徹底指南.
  3. 【Kylin實戰】Hive複雜數據類型與視圖.
  4. 【Kylin實戰】郵件報表生成.
  5. 輕量級OLAP(一):Cube計算.
  6. 輕量級OLAP(二):Hive + Elasticsearch.

工做流調度系列:

  1. 工做流引擎Oozie(一):workflow.
  2. 工做流引擎Oozie(二):coordinator.
  3. 靈活可擴展的工做流管理平臺Airflow.

5. 編程語言

Java

探究篇:

  1. Java中的逆變與協變.
  2. 【JDK源碼分析】淺談HashMap的原理.
  3. 【JDK源碼分析】String的存儲區與不可變性.

實戰篇:

  1. Java實時讀取日誌文件.
  2. Java實現過濾中文亂碼.

Python

實戰篇:

  1. 【Python實戰】機型自動化標註(搜狗爬蟲實現).
  2. 【Python實戰】Pandas:讓你像寫SQL同樣作數據分析(一).
  3. 【Python實戰】Pandas:讓你像寫SQL同樣作數據分析(二).
  4. 【Python實戰】Scrapy豌豆莢應用市場爬蟲.
  5. 【Python實戰】Django建站筆記.
相關文章
相關標籤/搜索