- 原文地址:Lesser Known Python Libraries for Data Science
- 原文做者:Parul Pandey
- 譯文出自:掘金翻譯計劃
- 本文永久連接:github.com/xitu/gold-m…
- 譯者:haiyang-tju
- 校對者:TrWestdoor
PC:Hitesh Choudhary 來自於 Unsplashjavascript
Python 是一個很棒的語言。它是世界上發展最快的編程語言之一。它一次又一次地證實了在開發人員職位中和跨行業的數據科學職位中的實用性。整個 Python 及其庫的生態系統使它成爲全世界用戶(初學者和高級用戶)的合適選擇。它的成功和流行的緣由之一是它強大的第三方庫的集合,這些庫使它能夠保持活力和高效。html
在本文中,咱們會研究一些用於數據科學任務的 Python 庫,而不是常見的好比 panda、scikit-learn 和 matplotlib 等的庫。儘管像 panda 和 scikit-learn 這樣的庫,是在機器學習任務中常常出現的,可是瞭解這個領域中的其它 Python 產品老是頗有好處的。前端
從網絡上提取數據是數據科學家的重要任務之一。Wget 是一個免費的實用程序,能夠用於從網絡上下載非交互式的文件。它支持 HTTP、HTTPS 和 FTP 協議,以及經過 HTTP 的代理進行文件檢索。因爲它是非交互式的,即便用戶沒有登陸,它也能夠在後臺工做。因此下次當你想要下載一個網站或者一個頁面上的全部圖片時,wget 能夠幫助你。java
$ pip install wget
複製代碼
import wget
url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'
filename = wget.download(url)
100% [................................................] 3841532 / 3841532
filename
'razorback.mp3'
複製代碼
對於那些在 python 中處理日期時間時會感到沮喪的人來講,Pendulum 很適合你。它是一個簡化日期時間操做的 Python 包。它是 Python 原生類的簡易替代。請參閱文檔深刻學習。python
$ pip install pendulum
複製代碼
import pendulum
dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')
dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')
print(dt_vancouver.diff(dt_toronto).in_hours())
3
複製代碼
能夠看出,當每一個類的樣本數量基本相同時,大多數分類算法的效果是最好的,即須要保持數據平衡。但現實案例中大可能是不平衡的數據集,這些數據集對機器學習算法的學習階段和後續預測都有很大影響。幸運的是,這個庫就是用來解決此問題的。它與 scikit-learn 兼容,是 scikit-lear-contrib 項目的一部分。下次當你遇到不平衡的數據集時,請嘗試使用它。android
pip install -U imbalanced-learn
# 或者
conda install -c conda-forge imbalanced-learn
複製代碼
使用方法和例子請參考文檔。ios
在 NLP 任務中,清理文本數據每每須要替換句子中的關鍵字或從句子中提取關鍵字。一般,這種操做可使用正則表達式來完成,可是若是要搜索的術語數量達到數千個,這就會變得很麻煩。Python 的 FlashText 模塊是基於 FlashText 算法爲這種狀況提供了一個合適的替代方案。FlashText 最棒的一點是,無論搜索詞的數量如何,運行時間都是相同的。你能夠在這裏瞭解更多內容。git
$ pip install flashtext
複製代碼
提取關鍵字github
from flashtext import KeywordProcessor
keyword_processor = KeywordProcessor()
# keyword_processor.add_keyword(<unclean name>, <standardised name>)
keyword_processor.add_keyword('Big Apple', 'New York')
keyword_processor.add_keyword('Bay Area')
keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.')
keywords_found
['New York', 'Bay Area']
複製代碼
替換關鍵字web
keyword_processor.add_keyword('New Delhi', 'NCR region')
new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.')
new_sentence
'I love New York and NCR region.'
複製代碼
更多實用案例,請參考官方文檔。
這個庫的名字聽起來很奇怪,可是在字符串匹配方面,fuzzywuzzy 是一個很是有用的庫。能夠很方便地實現計算字符串匹配度、令牌匹配度等操做,也能夠很方便地匹配保存在不一樣數據庫中的記錄。
$ pip install fuzzywuzzy
複製代碼
from fuzzywuzzy import fuzz
from fuzzywuzzy import process
# 簡單匹配度
fuzz.ratio("this is a test", "this is a test!")
97
# 模糊匹配度
fuzz.partial_ratio("this is a test", "this is a test!")
100
複製代碼
更多有趣例子能夠在 GitHub 倉庫找到。
時間序列分析是機器學習領域中最多見的問題之一。PyFlux 是 Python 中的一個開源庫,它是爲處理時間序列問題而構建的。該庫擁有一系列優秀的現代時間序列模型,包括但不限於 ARIMA、GARCH 和 VAR 模型。簡而言之,PyFlux 爲時間序列建模提供了一種機率方法。值得嘗試一下。
pip install pyflux
複製代碼
詳細用法和例子請參考官方文檔。
結果展現也是數據科學中的一個重要方面。可以將結果進行可視化將具備很大優點。IPyvolume 是一個能夠在 Jupyter notebook 中可視化三維體和圖形(例如三維散點圖等)的 Python 庫,而且只須要少許配置。但它目前仍是 1.0 以前的版本階段。用一個比較恰當的比喻來解釋就是:IPyvolume 的 volshow 對於三維數組就像 matplotlib 的 imshow 對於二維數組同樣好用。能夠在這裏獲取更多。
使用 pip
$ pip install ipyvolume
使用 Conda/Anaconda
$ conda install -c conda-forge ipyvolume
複製代碼
Dash 是一個高效的用於構建 web 應用程序的 Python 框架。它是在 Flask、Plotly.js 和 React.js 基礎上設計而成的,綁定了不少好比下拉框、滑動條和圖表的現代 UI 元素,你能夠直接使用 Python 代碼來寫相關分析,而無需再使用 javascript。Dash 很是適合構建數據可視化應用程序。而後,這些應用程序能夠在 web 瀏覽器中呈現。用戶指南能夠在這裏獲取。
pip install dash==0.29.0 # 核心 dash 後端
pip install dash-html-components==0.13.2 # HTML 組件
pip install dash-core-components==0.36.0 # 加強組件
pip install dash-table==3.1.3 # 交互式 DataTable 組件(最新!)
複製代碼
下面的例子展現了一個具備下拉功能的高度交互式圖表。當用戶在下拉菜單中選擇一個值時,應用程序代碼將動態地將數據從 Google Finance 導出到 panda DataFrame。源碼在這裏
OpenAI 的 Gym 是一款用於加強學習算法的開發和比較工具包。它兼容任何數值計算庫,如 TensorFlow 或 Theano。Gym 庫是測試問題集合的必備工具,這個集合也稱爲環境 —— 你能夠用它來開發你的強化學習算法。這些環境有一個共享接口,容許你進行通用算法的編寫。
pip install gym
複製代碼
例子
這個例子會運行 CartPole-v0
環境中的一個實例,它的時間步數爲 1000,每一步都會渲染整個場景。
你能夠在這裏獲取其它環境的相關資料。
以上這些有用的數據科學 Python 庫都是我精心挑選出來的,不是常見的如 numpy 和 pandas 等庫。若是你知道其它庫,能夠添加到列表中來,請在下面的評論中提一下。另外別忘了先嚐試運行一下它們。
若是發現譯文存在錯誤或其餘須要改進的地方,歡迎到 掘金翻譯計劃 對譯文進行修改並 PR,也可得到相應獎勵積分。文章開頭的 本文永久連接 即爲本文在 GitHub 上的 MarkDown 連接。
掘金翻譯計劃 是一個翻譯優質互聯網技術文章的社區,文章來源爲 掘金 上的英文分享文章。內容覆蓋 Android、iOS、前端、後端、區塊鏈、產品、設計、人工智能等領域,想要查看更多優質譯文請持續關注 掘金翻譯計劃、官方微博、知乎專欄。