從事SQL相關工做者能夠成爲數據科學家嗎?

做者 | Saurabh Hooda
來源 | CDA數據分析研究院

簡短的回答是確定的。只要數據科學家中存在「數據」,結構化查詢語言(或咱們稱之爲「quel」)將仍然是其中的重要部分。本文將深刻探討數據科學及其與SQL的關係,包括5 W和1H的答案 - 如何,爲何,何地,什麼時候,誰和什麼。咱們還將學習數據庫管理系統(DBMS)的基礎知識,並瞭解數據科學家如何成爲您職業生涯的最佳選擇。算法

什麼是數據科學

數據科學的視角很是普遍,做爲一名數據科學家須要深刻了解各類數學流,機器學習、計算機科學、統計研究、數據處理以及多個領域的專業知識。這些數學流中的每一種知識系統都須要對數據進行大量地研究和探索,不管是收集、分析仍是處理。數據庫

爲何數據科學如此受歡迎

目前來講數字世界正處於巔峯時期,隨着市場需求和普遍營銷策略的不斷增加,數據已成爲全部營銷目的的關鍵。例如,若是我想購買一部新手機,我會去亞馬遜或Flipkart這樣的網上商店,瀏覽不一樣的品牌,挑選心儀的品牌手機添加到個人購物車中,最後通過一些對比研究後決定購買。在網站後臺,在線商店會保存個人購物車信息和瀏覽歷史記錄,並在我下次登陸時向我展現更多相關品牌的手機推薦。即便我不買,在線商店也會給我發電子郵件或短信,提醒我購物車裏的商品「還在等着我」。 所以,數據在創建買賣雙方關係中起着相當重要的做用。客戶展示的歷史行爲數據越多,向買方呈現的我的定製化推薦程度就越高。這種個性化推薦算法不只適用於電子商務,也一樣適用於各行各業用戶價值分析和個性化營銷方案中。編程

怎麼樣實現

  • 收藏:假設您在宜家選購家居用品,查看對比相關產品的價目單。你夠買了一款喜歡的產品而後離開,但後來你發現你還須要購買更多相關的產品,你還會回來宜家選購。你告訴你的朋友這個產品是多麼有用和便宜,他們相信你的推薦也會來宜家購買。製造商使用這些數據來了解客戶的喜愛並更新他們的庫存以儲備更多更受歡迎的產品。此外,持續的反饋也有助於他們改進現有產品。
  • 處理:製造商收集用戶的數據,並在數據建模和規劃階段考慮可操做的方案。例如,愈來愈多的客戶爲他們的窗簾尋找特定的彩色牀單或特定的布料。
  • 分析:想象一下,若是你想要買一個藍色的牀單,爲了搭配你的房間的氛圍,綠色將是一個更好的選擇,可是目前尚未綠色的。綠色是一種常見的流行色。經過對人工輸入的數據和數據管理工具中存儲的數據進行分析,能夠肯定引入綠色搭配的產品是不是一個好主意,是否能知足更多客戶的需求,並帶來更多的利潤。
  • 對於需求預測和庫存管理,咱們須要存儲全部用戶信息,包括他們的購買瀏覽記錄,行爲偏好指數,評價反饋信息等。

數據在哪裏

全部的數據都存儲在數據庫中。所以,SQL對於處理須要按期加工和轉換的大量數據相當重要,同時它也是數據科學打算作的精準營銷和用戶反饋的重要工具。例如,若是您不喜歡Facebook給您推薦的視頻,您能夠選擇'隱藏此項',Facebook會當即向您詢問隱藏緣由。用戶的這些選項數據也須要存儲在數據庫中。api

經過像SQL這樣的關係數據庫,數據科學提供了一個連續的系統來處理和改進數據的呈現和處理方式。架構

SQL應用領域

SQL是整個數據科學領域的重要組成部分。可是,在企業實際業務工做中它究竟適用於哪些工做呢?若是您想成爲數據分析師,數據工程師或數據架構師,您將須要學習SQL以及C,R和Python等編程語言。這是一個簡單的圖表,顯示了使用SQL的階段:機器學習


圖片中突出顯示的交集部分是咱們須要SQL知識的地方:大數據,大數據分析和數據分析。編程語言

爲什麼選擇SQL

儘管NoSQL數據庫提供了高性能和高速度,但SQL數據庫仍然被普遍用於全部實際業務工做中。有更多的開發人員瞭解SQL技術,所以支持和翻譯幫助文檔使其更加豐富。此外,數據完整性是使SQL與任何NoSQL數據庫分開的一個關鍵因素,經過確保沒有重複或未經受權的數據能夠進入系統。此外,對於複雜的查詢和鏈接,結構良好的關係數據庫能夠更好地管理數據。工具

什麼是SQL

SQL是一種關係數據庫管理系統,用於存儲,檢索,更新和讀取數據庫中的數據。性能

在本文中,咱們將專一於SQL如何對數據科學起做用。讓咱們舉一個簡單的例子,說明您做爲數據科學家如何使用SQL來收集和分析數據。學習

假設您想經過檢查有多少用戶訂購它的副原本瞭解做者'Carl Shan'的一本名爲'The Data Science Handbook'的書的受歡迎程度。由於SQL是具備適當模式的結構良好的語言,因此您可使用以下結構:

customer table

order_details table

book table

要獲取此類數據,咱們須要使用一些關鍵字段或主鍵和外鍵字段來鏈接這三個表。在這種狀況下,order_id對於全部三個表都是共有的關鍵字段,能夠用來做爲鏈接字段,使用這些鏈接後的數據,咱們能夠編寫查詢語句來獲取必要的字段信息。

在現實生活中,這種系統能夠處於多個層次的分析需求中,咱們須要使用SQL分析和處理大量數據。來自數百萬用戶的平常行爲記錄數據被存儲在SQL數據庫中,用於不一樣目的的分析需求。想象一下,在不使用SQL的狀況下咱們可以完成這些海量數據的處理和分析工做嗎?

雖然有些人認爲SQL在數據科學家工做中的做用正在減小,但事實並不是如此。SQL在數據分析工做中依然十分的重要。

如下是數據科學家應該瞭解的一些關鍵SQL概念:

  • 關係數據庫模型
  • 在關係數據庫模型中,全部數據點都相互關聯或相互鏈接。在建立這種類型的數據庫時,必須在設計階段自己定義各類表和列之間的關係。在上面的例子中,這三個表是相關的。客戶表的主鍵(「在關係(表)中惟一指定元組(行)的最小屬性集(列)的特定選擇」)將是customerid,而orderid將是外鍵(「屬性集主題」)某種包含依賴性約束,特別是一種約束,即由一個關係中的外鍵屬性R組成的元組R也必須存在於某種其餘(不必定是不一樣的)關係中,S「)。以一樣的方式,bookid和orderid組合能夠是書表的複合鍵。必須在建立階段自己定義這些關係。
  • DBMS規範化
  • 規範化是設計過程,其中數據庫中的表以規範化的方式組織,以免數據的冗餘和依賴性。使用不一樣形式的規範化,咱們能夠將數據劃分爲更小的結構並在它們之間創建連接,以便最佳地存儲數據。這篇好文章以一種很是簡單易懂的方式介紹了有關規範化的信息。
  • 數據庫架構
  • 數據庫模式是數據庫的邏輯視圖。應用於數據的全部關係(如約束,表,視圖,觸發器等)構成模式。
  • 基本SQL命令
  • SQL能夠執行如下類型的語句:
  • DML(數據操做語言)聲明 - select, insert, delete, update
  • DDL(數據定義語言)聲明 - create, drop, alter
  • DCL(數據控制語言)聲明 - grant, revoke
  • TCL(交易控制語言)聲明 - begin, commit, rollback

誰應該學習SQL

到如今爲止,您應該明白SQL相關從業者是否能夠成爲數據科學家以及如何成爲一名數據科學家。若是您對數據很是感興趣,並但願將數據科學做爲您的職業選擇,那麼您必定要學習SQL。

數據科學家做爲職業選擇

當今社會天天都會產生大量數據,須要將其轉換爲新的業務解決方案,設計和產品,這些只能來自數據科學家的創造性思惟。這種需求至少會在幾十年內增長。除了行業爲數據科學家提供的脂肪包以外,吸引專業人士參與這項工做的挑戰和不斷增加的角色也是如此。從數據管理員,數據架構師,數據分析師,業務分析師到數據管理員或商業智能經理,在數據科學圈中有不少機會可供選擇。瞭解SQL,R和Python等編程語言,統計和應用數學,結合批判性思惟和行業知識,能夠比你想象的更快。

做者:Saurabh Hooda曾在全球範圍內爲各類電信和金融巨頭工做。在Infosys和Sapient工做了十年以後,他開始了他的第一家創業公司Leno,以解決超本地書籍共享問題。他對產品營銷和分析感興趣。
相關文章
相關標籤/搜索