用於檢測敏感詞的 PHP 擴展

敏感詞過濾是我朝程序員必須具有的一種特殊技能,隨着敏感詞愈來愈多,是時候寫個擴展來快速的進行敏感詞檢測了
使用說明 php

1. 安裝 libdatrie
tar zxf libdatrie-0.2.4.tar.gz
cd libdatrie-0.2.4
./configure --prefix=/usr/local
make
make install linux

2. 安裝 trie_filter 擴展
tar zxf trie_filter-1.0.0.tar.gz
cd trie_filter-1.0.0
/usr/local/php/bin/phpize 程序員

./configure  --with-php-config=/usr/local/php/bin/php-config
make
make install
記得修改你的 php.ini 文件,啓用 trie_filter 擴展。extension=trie_filter.so 算法

 

3. 生成詞典預處理工具(dpp.c 在 trie_filter-1.0.0 裏面)
gcc -o dpp dpp.c -ldatrie windows

4. 生成敏感詞詞典
首先你須要把須要檢測的敏感詞寫入到一個文本文件中(如:minganci.txt),每行一個敏感詞,而後使用上一步生成的 dpp 程序處理這個文本文件來生成詞典
./dpp txt_file_path dict_file_path      數組

 (例:./dpp  /home/like/software/minganci.txt  minganci.dic 函數

出現以下錯誤: 工具

./dpp: error while loading shared libraries: libdatrie.so.1: cannot open shared object file: No such file or directory 測試

解決方法: 編碼

#vi /etc/ld.so.conf  在裏面加入:/usr/local/lib
而後運行:#/sbin/ldconfig,即解決

最後再:./dpp  /home/like/software/minganci.txt  minganci  )

 

5. 使用擴展
擴展接口很簡單,只有兩個函數:
1) trie_filter_load($path_to_dict)
用來載入詞典,成功返回一個 Trie_Filter 資源句柄,失敗返回 NULL
2) trie_filter_search($trie, $text)
用來檢測一段文本中是否含有詞典中定義的敏感詞,$trie 是上一個函數返回的 Trie Filter 句柄,$text 是欲檢測的文本
若是檢測到敏感詞則返回一個數組,數組第一個元素指出檢測到的敏感詞在 $text 中的偏移量,第二個元素指出該敏感詞的長度(bytes)
若是沒有檢測到敏感詞,則返回一個空數組

擴展的速度怎麼樣

一個字,很快!擴展的檢測算法基於 Double Array Trie Tree,查找單一關鍵字的時間複雜度爲 O(1),查找整段文本的時間複雜度爲 O(n),n 爲文本的長度,並且檢測的速度不會由於敏感詞的增長而下降。

注意事項

1. 擴展把詞典和要檢測的文本都當作平凡的字節流處理,所以能夠無視字符集的問題。但須要注意的是詞典的編碼須要和檢測文本的編碼一致(我曾經犯過這樣的錯誤:詞典編碼和文本編碼不同,生成的詞典用不了),例如詞典爲 UTF-8 編碼而你須要檢測的文本爲 GBK 編碼,這就要求你在調用 trie_filter_search() 函數以前經過 iconv 或者 mb_xxx 函數轉換一下編碼
2. 目前只在 linux + php-5.2 環境下測試經過,不支持 windows,也沒有支持的計劃

trie_filter-1.0.0.tar

libdatrie-0.2.4.tar

相關文章
相關標籤/搜索