Spark上數據的獲取、處理與準備

1、獲取公開數據集 UCI機器學習知識庫:包括近300個不一樣大小和類型的數據集,可用於分類、迴歸、聚類和推薦系統任務。數據集列表位於:http://archive.ics.uci.edu/ml/ Amazon AWS公開數據集:包含的一般是大型數據集,可經過Amazon S3訪問。這些數據集包括人類基因組項目、Common Craw網頁語料庫、維基百科數據和Google Books Ngrams
相關文章
相關標籤/搜索