pandas.DataFrame.sample隨機抽樣

在大數據時代,咱們建模數據量可能達到千萬級甚至TB。大數據在給投資者介紹時很必要,容易獲得融資。但對於數據科學家來講,有時候咱們只須要數據集中的一部分,並不須要所有的數據。這個時候咱們就要對數據集進行隨機的抽樣。若是用全量數據建模或數據分析,成本過高,須要高性能服務器存儲數據。這對中小公司來講不現實。html

最經典案例是二戰中德軍坦克問題。在第二次世界大戰期間,西方盟國不懈地努力肯定德國的生產規模,並以兩種主要方式進行處理:常規情報收集和統計估計。python

a4342b870e262e5b423eb5ba3b901a04.jpeg

英國人用統計學方法估計德國坦克數量和德國真實坦克數量很是接近,遠比情報部門數據準確。api

93feede1759e8de6700ab2dd774cd1cd.jpg

python的pandas中自帶有抽樣的方法。這是相關官網文檔介紹:服務器

pandas.DataFrame.sample - pandas 1.2.3 documentationpandas.pydata.org7114d16ba6051146859851a3b7a6e823.jpegide

輸入參數說明性能

7164aac8d8407fd352168e8ae1b27ebb.jpeg7ff30366ef2920281f4dfc77c79d6272.jpeg

歡迎各位學習更多數據分析知識(博主錄製)學習

https://edu.51cto.com/sd/8faab
呆瓜半小時入門python數據分析-數據是新時代石油
大數據

相關文章
相關標籤/搜索