數據分析與數據科學的將來

根據IADSS聯合創始人Usama Fayyad博士,在2019年波士頓ODSC大會上的主題演講後的採訪,咱們瞭解到了數據科學當前和將來的問題以及可能的解決方案。

凱特·斯特拉奇尼(Kate Strachnyi):鑑於人們在數據中所扮演的角色千差萬別,所以未來會採用哪些行爲改變或使用哪些工具面試

Usama Fayyad:我認爲組織中的工具和行爲變動可能以比實際方式更昂貴的方式進行,這意味着它們正在經歷聘用數據科學家的好與壞。他們中的一些人看到了價值,有些人看到了他們聘用中的不合適,如今他們不得不經過解僱或替換來從中調整,以獲取更高的價值。我認爲由此產生的結果是,項目組要開始進行更完全的評估。若是你沒有一個好的數據科學家,那麼距離聘請另外一個好的數據科學家的時間也就不遠了。算法

那麼,若是你的部門一開始或者已經沒有好的科學家在職,那你應該從哪裏開始呢?這就是爲何你須要招募人才,對嗎?你如何解決?咱們認爲,經過制定標準,對每一個職員的角色,職位以及所須要的培訓進行良好的描述,實際上才能令人們更容易地經過不少簡歷,而後選擇那些看起來頗有前途的工做,選擇可能有價值的面試,知道在面試中可能會問些什麼。咱們分享了不少候選人的反饋,他們說:「嘿,我在十個不一樣的地方接受了同一份工做的面試。除了圍繞編程的兩個小問題外,面試幾乎沒有什麼共同之處。」編程

凱特·斯特拉奇尼(Kate Strachnyi):好吧,我要說的是,若是有一個數據科學家須要回答的十個常見問題,你能夠考慮將這些問題的答案發布到Google的某個地方。安全

Usama Fayyad:固然。這就是爲何沒有其餘替代方法能夠進行實時跟蹤,從而使你更加深刻。僅僅問常見問題是不夠的。當你進行視頻採訪時,有一些工具能夠檢查這些行爲,以查看是否有人在看其餘地方,或者其餘人是否坐在後臺竊竊私語。令我驚訝的是,如今有了技術,人們可使用AI來檢測是否在受監督的視頻採訪中有標記某項內容,而且是否有公司提供這些服務。當你收到一個紅旗時,你會停下來並說:「你真的知道這個地區嗎?讓我問你一些後續問題。」一般,做弊的人會很快崩潰。架構

凱特·斯特拉奇尼(Kate Strachnyi): 與咱們所說的有關,有不少人想成爲數據科學家,可是他們也在AI中發揮了不少技術創新做用,能夠幫助數據科學家完成工做。那麼,你是否定爲,機器人正在接替咱們的工做,而且技能差距將會縮小?這是個問題嗎?機器學習

「 AI並非要用機器人代替人類。它是要把機器人從人類身上帶走。」工具

Usama Fayyad:我認爲這是MIT數據實驗室或MIT媒體實驗室提出的座右銘:「 AI並非要用機器人代替人類,而是要把機器人從人類手中帶走」。所以,我認爲AI和許多此類技術正在使他們的工做更加輕鬆。實際上我根本不相信他們有能力取代咱們的工做。能夠替代的工做是很是平凡,很是機械化,很是重複的任務,這類工做我認爲機器會比人類作得更好。咱們須要人類,由於到目前爲止。咱們不知道如何構建一種具備大多數人擁有的東西的機器,這是常識,而且可以在新狀況下快速作出判斷。學習

我喜歡用自動駕駛來舉例子。我認爲短時間內咱們不會看到自動駕駛。這項技術可能須要30多年的時間。可是我確實相信,今天在不少領域,這些AI算法均可覺得咱們提供不少幫助。所以,避免分心的駕駛員發生碰撞,提早給予警告並進行剎車操做,這些是十分有用的。對於許多人同時泊車的狀況來講,能夠幫助你完成任務的工具如今能夠自動化,這是一件好事。所以,在這些區域中,你能夠自動執行許多操做,可是到目前爲止,咱們還沒法構建能預見咱們可能遇到的狀況的機器。以前沒有看到過能迅速作出反應,能未來自另外一種相似狀況的知識映射到該狀況並有效利用的例子。我有不少相似這種狀況的例子,這也就是我爲何不相信自動駕駛將如何發生的緣由,至少在個人一輩子中如此。可是我認爲這些機器已經足夠先進,能夠執行許多平凡的任務,並在我分心,無能或有其餘問題時爲我提供幫助。大數據

凱特·斯特拉奇尼(Kate Strachnyi): 好的。因此你的意思是咱們如今很安全嗎?加密

烏薩馬·費耶德(Ysama Fayyad):是。實際上,從歷史上看過去的兩個AI冬季,因爲全部的炒做,我認爲將會有一個新的AI冬季,咱們創造的工做要比淘汰的工做多得多。所以,你打開了一堆新的領域,人們能夠在其中執行許多更高價值的工做。

凱特·斯特拉奇尼(Kate Strachnyi): 從人類活動要求中消除單身主義可使人類變得更加敏感,富有創造力和積極主動。應該對行業的許多領域都帶來好處,而不是害處。你贊成嗎?

烏薩馬·法耶德(Usama Fayyad):我徹底贊成,實際上,我是徹底支持的。我將使用一個很是基本的示例,該示例與數據科學關係不大,但倒是相關的。一百多年前的會計處理打開了這些龐大的分類賬,須要花幾天時間計算數字並仔細檢查有沒有記錯。此外,還有各類各樣的技巧能夠避免錯誤,並仔細檢查這些塵土飛揚且沒法訪問的分類賬。現在,若是沒有軟件來完成跟蹤數字,累加數字,作全部正確的事情,建立資產負債表等全部平常工做,那麼沒有人會想到作會計這項工做。對我來講,這是一個例子,如今會計師能夠考慮更具戰略意義的事情。咱們能夠考慮諸如「這筆費用有必要嗎?」之類的事情,「這有意義嗎?」,「咱們能夠在這裏省錢嗎?」,「咱們能夠更好地利用資產嗎?」等他們歷來沒有時間考慮的問題。這纔是真正理財的價值所在。

凱特·斯特拉奇尼(Kate Strachnyi): 數據技術對企業指望的影響是什麼?

人們一般會在圖形和摘要級別使用數據,而諸如機器學習算法之類的機器則須要每一個小事務及其周圍事物的細節。

烏薩馬·法耶德(Usama Fayyad):咱們所看到的最大的事情是數字化浪潮。我認爲,在不少數字化或所謂的數字化轉換工做中,這幾乎是個人摯愛,人們開始將許多手動任務數字化,使它們更準確,重複性更低,且更快。所以,發生的事情是它們形成了咱們所謂的「即時技術債務」,由於你如今已經創建了數字化機制,而且忘記了諸如「如何捕獲正確的數據?」之類的問題。「我該如何表示這些數據?」 「如何存儲這些數據?」 「如何在正確的時間檢索它?」 和「這是什麼級別的數據?」。人們一般會在圖形和摘要級別使用數據。

那是人類徹底不消耗,可是對於學習算法是必需的東西。因此,對我來講,如今正在發生的事情是人們正在從新思考,在告訴咱們,好吧,若是我真的在進行適當的數字化,我想確保我投入正確的大腦和正確的智力,以這樣的方式實際設計它。這樣,當我捕獲正確的數據,正確地管理數據時,最重要的是,啓用很是挑剔的機器學習算法,這些算法只能處理某種格式的數據,若是不是這種格式的數據就徹底崩潰了。我認爲這就是如今正在發生變化並變得更好的事情,尤爲是對於大數據,這使得處理不一樣類型的數據變得容易。

凱特·斯特拉奇尼(Kate Strachnyi): 企業具備在信息安全與信息利用之間實現數據平衡的風險承受能力,做爲首席數據官,你對此有何見解?

Usama Fayyad:一個巨大且很是重要的話題。我堅信你能夠最大限度地利用,同時也最大程度的保護隱私。你只須要注意本身的操做方式便可。如此衆多的組織沉迷於數據泄漏,攻擊和黑客攻擊。事實證實,大多數威脅是內部威脅。這些內部威脅中有許多來自有意或無心安裝了不良軟件,惡意軟件等的人。這就是所謂的社會工程。即便你沒有鏈接到外部,壞人也能夠經過這種方式將其帶入。實際上,很是著名的漏洞就是這樣發生的,包括新聞中的一些著名漏洞。我要在這裏說的是,一旦邊界安全,就很安全。

事實證實,大多數數據威脅是內部的。數據應加密。只有真正有理由訪問密鑰的人才能訪問密鑰。

這是一個很是糟糕的假設。順便說一句,對於物聯網和物聯網,這已經成爲一個很是糟糕的假設,由於在這個世界上沒有周界。所以,正確的作法很簡單,對吧?數據應加密。只有真正有理由訪問密鑰的人才能訪問密鑰。並且,對密鑰的管理必須足夠活躍,以確保沒有人由於歷史緣由而對密鑰進行計數,並且按鍵始終保持刷新狀態。能夠當即更改密鑰,以便在發生不良狀況時能夠當即拒絕人們訪問。順便說一下,這些技術今天已經可用,只是沒有被懶惰所使用。所以,須要你正確執行此操做並確保它是正確的訪問權限。

沒有人真正須要看它。查看數據集的機器學習算法的優勢在於,它不須要咱們認爲的任何私人信息。例如,PII(我的身份信息)對算法沒有用。若是你有名稱或社會安全號碼,該算法會將其丟棄,由於它是每一個數據記錄的惟一標識符。除非它是一個錯誤的算法,不然它沒有預測價值。但這會收集整體的預測模式,即人們在使用此產品和此功能時,每每會遇到這類問題。或者,咱們的客戶正在尋找東西,這是咱們將銷售翻番的機會。所以,能夠經過算法來從數據中收集這些信息,這些算法能夠安全地運行,而無需人工實際訪問。在不危害數據隱私性的前提下,你只須要擁有一個受到良好控制和架構化的故事,就能夠說明誰什麼時候何地訪問數據了。

獲取更多優質內容,可前往:疫情當下,宅家也能好好提高本身,爲將來蓄能——蓄勢待發!

相關文章
相關標籤/搜索