Hive學習使用一週感悟ide
最近一段時間主要在學習Hive SQL語句並完成了一個小任務,熟悉了Hive SQL的基本語法和應用,
對進一步學習使用Hive SQL來分析處理數據打下了一個基礎。工具
數據科學領域最重要的在於數據自己,一塊兒技能和工具都是過程,數據既是開始也是結果,
因此在處理數據時首先要了解數據。學習
以Hive SQL表的join爲例,在分析使用哪一種語句以前,首先要肯定本身想要獲得的表須要是作什麼的優化
。
須要包括哪些字段,分別有什麼用,在考慮保留表的字段時,不只須要考慮當前需求,code
也要爲後來的業務需求保留相應的字段,由此肯定整個表的數據結果,固然這也是創建在熟悉業務的基礎之上。it
在肯定了表的字段以後,便須要根據表的需求去選擇上游的關聯表,在肯定了上游的關聯表以後class
,再根據關聯表採用相關的HQL語句進行操做獲得相應字段的值並進行賦值命令。基礎
在表的join過程當中涉及到查詢語句的優化,更涉及到join以後數據膨脹的問題,語法
所以在join以前與以後都須要特別注意表的去重問題。數據
初入此坑,技能與工具都是手段,業務纔是目的,但熟練的掌握工具的使用和高超的技能更是有助於精準的分析與理解業務。路漫漫其修遠兮,吾將上下而求索。