pandas.DataFrame.sample隨機抽樣

時間 2021-03-21

標籤 html python api 服務器 ide 性能學習大數據 spa htm 欄目 Spark 简体版

原文原文鏈接

在大數據時代，咱們建模數據量可能達到千萬級甚至TB。大數據在給投資者介紹時很必要，容易獲得融資。但對於數據科學家來講，有時候咱們只須要數據集中的一部分，並不須要所有的數據。這個時候咱們就要對數據集進行隨機的抽樣。若是用全量數據建模或數據分析，成本過高，須要高性能服務器存儲數據。這對中小公司來講不現實。html

最經典案例是二戰中德軍坦克問題。在第二次世界大戰期間，西方盟國不懈地努力肯定德國的生產規模，並以兩種主要方式進行處理：常規情報收集和統計估計。python