在大數據時代,咱們建模數據量可能達到千萬級甚至TB。大數據在給投資者介紹時很必要,容易獲得融資。但對於數據科學家來講,有時候咱們只須要數據集中的一部分,並不須要所有的數據。這個時候咱們就要對數據集進行隨機的抽樣。若是用全量數據建模或數據分析,成本過高,須要高性能服務器存儲數據。這對中小公司來講不現實。html
最經典案例是二戰中德軍坦克問題。在第二次世界大戰期間,西方盟國不懈地努力肯定德國的生產規模,並以兩種主要方式進行處理:常規情報收集和統計估計。python
英國人用統計學方法估計德國坦克數量和德國真實坦克數量很是接近,遠比情報部門數據準確。api
python的pandas中自帶有抽樣的方法。這是相關官網文檔介紹:服務器
pandas.DataFrame.sample - pandas 1.2.3 documentationpandas.pydata.orgide
輸入參數說明性能
歡迎各位學習更多數據分析知識(博主錄製)學習