ComputeColStats UDF中 近似算法的介紹(續)

在前一篇文章的最後提到,對於準確率的提升是後續需要做的事情之一。接下來看看對於提升準確率,還有哪些事情可以做。 一,回顧 首先回顧下前一篇文章最後得到的結果,如下: 執行時間先忽略,只看準確率。對於上面8個字段,有些在sample爲25(採樣比例1/25)的情況下還是相當準確的,比如odps_task_type,start_time;而有些則存在一定差距,比如project_name,fuxi_c
相關文章
相關標籤/搜索