2017 年回顧：NLP、深度學習與大數據

時間 2019-11-24

標籤回顧 nlp 深度學習數據简体版

原文原文鏈接

本文由【AI前線】原創，原文連接：t.cn/RTHRSQq
html

AI 前線導讀： 「過去幾年以來，深度學習（簡稱 DL）架構及算法已經在圖像識別與天然語言處理（NLP）、數據科學、機器學習和預測分析領域領域取得了使人印象深入的進展。算法

儘管其在天然語言處理（簡稱 NLP）領域的應用最初較爲平淡，但現在的成效已經證實這一層面將成爲深度學習的另外一大施展空間，並確實有能力爲部分常見 NLP 任務提供最早進的支持成果。命名實體識別（簡稱 NER）、詞類（簡稱 POS）標記乃至情感分析都已經成爲神經網絡模型超越傳統處理方法的重要應用方向。而在此之中，機器翻譯的進步幅度尤其可觀」。編程

在今天的文章中，咱們將回顧 2017 年年內基於深度學習技術所實現的 AI 發展成效。固然，受到篇幅所限，本篇文章不可能涵蓋所有科學論文、框架及工具。在這裏，咱們只但願與你們分享這一年中最振奮人心的成果，同時結合全球 AI 大咖觀點，帶你回顧過去一年以來，深度學習帶來的發展及其意義。安全

天然語言處理的發展與趨勢微信

2017 年是天然語言處理領域的重要一年，深度學習所發揮的做用正在不斷擴大，尤爲在某些狀況下可以帶來驚人的效果——而全部跡象都代表，這一趨勢在新的一年中還將持續下去。網絡

從訓練 word2vec 到使用預訓練模型架構

能夠說，詞嵌入是深度學習在天然語言處理領域最爲知名的技術之一。詞嵌入源自 Harris 於 1954 年提出的分佈假說，他認爲具備類似含義的詞彙一般會出如今同類語境當中。關於詞嵌入的詳細解釋，這裏建議你們參閱 Gabriel Mordecki 發佈的這篇精彩文章。併發

詞彙分佈向量示例框架

Word2vec（由 Mikolov 等於 2013 年提出）與 GloVe（由 Pennington 等於 2014 年提出）等算法正是這一領域的先驅性方案——雖然其尚不屬於深度學習（word2vec 中的神經網絡較爲淺表，而 GloVe 則採起基於計數的實現方法），但利用兩者訓練的模型已經被普遍應用於各種深度學習天然語言處理方案當中。另外須要強調的是，這兩種算法確實極具成效，甚至使得詞嵌入成爲目前最值得確定的實現方法。機器學習

做爲起步，對於須要使用詞嵌入的特定 NLP 問題，咱們傾向於首先使用一套與之相關的大型語料庫進行模型訓練。固然，這種做法存在必定的入門難度——也正由於如此，預訓練模型纔開始逐漸普及起來。在利用維基百科、Twitter、谷歌新聞以及 Web 抓取等數據完成訓練以後，這些模型將容許你們輕鬆將詞嵌入機制整合至本身的深度學習算法當中。

2017 年的種種實踐證實，預訓練詞嵌入模型已經成爲解決 NLP 問題的一類關鍵性工具。舉例來講，來自 Facebook AI Research（簡稱 FAIR）實驗室的 fastText 即提供包含 294 種語言的預訓練向量，這無疑給整個技術社區帶來了巨大的貢獻與推進做用。除了可觀的語言支持數量，fastText 還採用字符 N 元模型（即便是來自特定領域的術語等罕見詞，其中亦包含一樣存在於其它常見詞中的 N 元字符組合），這意味着 fastText 可以迴避 OOV（即詞彙量超出）問題。從這個角度來看，fastText 的表現要優於 word2vec 以及 GloVe，並且前者在處理小型數據集時一樣更勝一籌。

儘管已經實現了必定進展，但這方面仍有大量工做須要完成。舉例來講，卓越的 NLP 框架 spaCy 就可以對詞嵌入與深度學習模型加以整合，從而以原生方式實現 NER 及依存關係語法分析等任務，使得用戶可以更新現有模型或者使用自主訓練的模型。

將來應該會出現更多針對特定領域的預訓練模型（例如生物學、文學、經濟學等），從而進一步下降天然語言處理的實現門檻。屆時用戶只須要對這些模型進行簡單微調，便可順利匹配本身的實際用例。與此同時，可以適應詞嵌入機制的方法也將不斷涌現。

調整通用嵌入以適配特定用例

預訓練詞嵌入方案的主要缺點，在於其使用的訓練數據每每與咱們的實際數據之間存在着詞彙分佈差別。假定您面對的是生物學論文、食譜或者經濟學研究文獻，你們可能沒有規模可觀的語料庫用於嵌入訓練 ; 在這種狀況下，通用詞嵌入方案可能有助於帶來相對理想的成果。然而，咱們該如何對詞嵌入方案進行調整，從而確保其適合您的特定用例？

這種適應性一般被稱爲 NLP 中的跨領域或領域適應技術，其與遷移學習很是類似。Yang 等人在這方面拿出了很是有趣的成果。今年，他們公佈了一套正則化連續跳元模型，可根據給定的源領域詞嵌入學習目標領域的嵌入特徵。

其中的核心思路簡單但極富成效。想象一下，假定咱們已經在源領域當中知曉詞 w 的詞嵌入爲 w_sw。爲了計算 w_twt（目標領域）的嵌入，做者在兩個領域之間向 w_sw添加了一個特定遷移量。基本上，若是該詞在兩個領域皆頻繁出現，則意味着其語義與領域自己不存在依存關係。在這種狀況下，高遷移量意味着該詞在兩個領域中產生的嵌入結果傾向於彼此類似。但若是該詞在特定領域中的出現頻率比另外一領域明顯更高，則遷移量將相應下降。

做爲與詞嵌入相關的研究議題，這項技術尚未獲得普遍關注與探索——但我相信其會在不久的將來得到應有的重視。

情感分析——使人印象深入的「副產物」

與青黴素乃至 X 光同樣，情感分析一樣是一場意外中的驚喜。今年，Radford 等人開始探索字節級遞歸語言模型的特性，但其本意只是但願預測 Amazon 評論內容中的下一個字符。最終的結論顯示，他們訓練模型中的某個神經元可以準確預測情感值。是的，這個單一「情感神經元」可以以使人印象深入的水準將評論內容歸類爲「正面」或「負面」。

審查極性與神經元的值

在注意到這種現象後，做者們決定利用斯坦福情緒樹庫對該模型進行進一步測試，並發現其準確性高達 91.8%——優於原有最好成績 90.2%。這意味着他們的模型可以以無監督方式利用更少實例實現訓練，並至少可以立足斯坦福情緒樹庫這一特定但涵蓋範圍普遍的數據集之上實現最爲先進的情感分析能力。

情感神經元的實際使用

因爲該模型立足字符層級運做，所以各神經元會根據文本中的每一字符做出變動，而最終成效使人印象深入。

情感神經元的行爲

舉例來講，在「best」一詞以後，該神經元的值會變爲強正值。然而這種效果將隨着「horrendous」這一負面詞語的出現而消失——很是符合邏輯。

生成包含偏向極性的文本

固然，這套訓練模型亦是一套行之有效的生成模型，所以可以用於生成相似 Amazon 評論的文本內容。而讓我我的感到驚喜的是，你們甚至可以簡單覆蓋情感神經元的值來選定所生成文本的偏向極性。

以上爲所生成的示例文本。

做者們選擇了乘法 LSTM（由 Krause 等人於 2016 年發佈）做爲其神經網絡模型，這主要是因爲他們發現乘法 LSTM 的超參數設置收斂速度要遠高於其它普通 LSTM。其中包含 4096 個單元，且利用 8200 萬條 Amazon 評論內容進行訓練。

時至今日，咱們仍沒法理解這套通過訓練的模型爲什麼可以以如此精確的方式捕捉到評論內容的情感傾向。固然，你們也能夠嘗試訓練本身的模型並進行實驗。再有，若是您擁有充分的時間與 GPU 計算資源，亦可投入一個月利用四塊英偉達 Pascal GPU 重現研究人員們的訓練過程。

Twitter 中的情感分析

不管是對企業品牌的評價、對營銷活動影響做出分析抑或是量化 2016 年美國總統大選中民衆對希拉里與特朗普的支持程度，Twitter 中的情感分析一直做爲一款強大的工具存在。

特朗普對希拉里：Twitter 上的情感分析

SemEval 2017

Twitter 上的情感分析已經引發了 NLP 研究人員們的普遍關注，同時亦成爲政治及社會科學界內的熱門議題。也正由於如此，SemEval 自 2013 年以來提出了一項更爲具體的任務。

今年，總計 48 支隊伍參與到評選當中，這也再次證實了 SemEval 的魅力所在。爲了進一步瞭解 Twitter 公司組織的 SemEval 到底是什麼，咱們將首先回顧其今年提出的五項任務：

任務 A: 根據給定的一條推文，判斷其表明正面、負面抑或中性情感。

任務 B: 根據給定的一條推文與主題，將與該主題相關的推文內容進行觀點二分：正面與負面。

任務 C: 根據給定的一條推文與主題，將與該主題相關的推文進行觀點五分：強正面、弱正面、中立、弱負面、強負面。

任務 D: 根據與某一主題相關的一組推文，估算其中正面與負面情感類別的分佈狀況。

任務 E: 根據與某一主題相關的一組推文，立足如下五種類別進行推文內容估算：強正面、弱正面、中立、弱負面、強負面。

如你們所見，任務 A 屬於最多見的任務，有 38 個團隊參與了這項任務 ; 但其它任務則更具挑戰性。主辦方指出，深度學習方法的使用量已經至關可觀並仍在不斷增長——今年已經有 20 個團隊開始採用卷積神經網絡（簡稱 CNN）與長 / 短時間記憶（簡稱 LSTM）等模型。此外，儘管 SVM 模型仍然至關流行，但已經有一部分參與者將其與神經網絡方法或詞嵌入特徵加以結合。

BB_twtr 系統

今年我還發現了一套純粹的深度學習系統，即 BB_twtr 系統（Cliche，2017 年），其在五項任務的英文版本挑戰中所有位列第一。該做者將 10 套 CNN 與 10 套 biLSTM 結合起來，並利用不一樣超參數以及不一樣預訓練策略對其進行訓練。感興趣的朋友能夠查閱連接內論文中對該網絡架構的詳盡描述。

爲了訓練這些模型，做者採用了人類標記推文（爲了讓你們體會到其工做量，單是任務 A 就包含 49693 條此類推文），同時構建起一套包含 1 億條推文的未標記數據集。其可以經過簡單的字符表情標記——例如：-）——從這套未標記數據集中提取出獨立數據集。這些推文經過小寫、標記、URL 以及表情符號等被替換爲統一的標記方式，用於強調證據的重複字符也通過相似的處理（例如將‘Niiice’與‘Niiiiiiice’統一轉換爲‘Niice’）。

爲了對做爲 CNN 及 biLSTM 輸入內容的詞嵌入進行預訓練，該做者採用了 word2vec、GloVe 以及 fastText 對未標記數據集進行訓練，且三者皆採用默認設置。在此以後，他利用中立數據集對詞嵌入進行微調，旨在添加極性信息 ; 最後再利用人類標記數據集對模型進行再次微調。

利用以往 SemEval 數據集進行實驗，他發現 GloVe 會致使成效下降，且並不存在適用於所有數據集的最佳模型。該做者隨後將所有模型利用一套軟投票策略結合起來。最終得出的模型順利打敗了 2014 年與 2016 年的獲勝模型方案，且與其它幾年的優勝者亦相差很少。正是這套方案，在 2017 年的 SemEval 當中得到五項任務的英文版本優勝。

儘管他選擇的組合方式並不具有有機性——而僅經過一種簡單的軟投票策略實現，但這項工做仍然證實了將多種深度學習模型加以結合的可能性。事實上，此次嘗試還證實了咱們徹底可以以端到端方式（即輸入內容必須通過預處理）實現超越監督學習方法的 Twitter 情感分析能力。

使人興奮的抽象歸納系統

自動歸納與自動翻譯同樣，皆屬於天然語言處理領域的元老級任務之一。目前實現自動歸納主要經過兩種方法：基於提取型方法，經過從源文本中提取最重要的文本段創建摘要 ; 基於抽象型方法，以抽象方式經過生成文本構建摘要內容。從歷史角度來看，基於提取的方法最爲常見，這主要是由於其實現難度要遠低於基於抽象型方法。

過去幾年以來，基於遞歸神經網絡（簡稱 RNN）的模型開始在文本生成方面取得驚人的進展。其在簡短輸入與輸出文本場景中的表現很是出色，但所生成的長文本卻存在着連續性差及重複度高等問題。在工做當中，Paulus 等人提出了一種新的神經網絡模型以克服上述侷限——而結果使人振奮，具體以下圖所示：

模型所生成的摘要內容

做者們利用一款 biLSTM 編碼器讀取輸入內容，並利用 LSTM 解碼器生成輸出結果。他們的主要貢獻在於利用一種新的內部關注策略對輸入內容以及連續生成的輸出結果進行分別關注，同時結合標準監督詞語預測與強化學習機制創建起一種新的訓練方法。

內部關注策略

之因此要提出內部關注策略這一律念，主要是爲了不輸出結果中的重複性問題。爲了達到這項目標，他們在解碼過程當中使用暫時關注機制查看輸入文本中的前一段落，並藉此決定下一個將要生成的詞彙。這就迫使該模型在生成過程當中使用輸入內容中的不一樣部分。此外，做者們還容許模型從解碼器當中訪問此前曾經存在的隱藏狀態。將這兩條函數結合起來，便可爲摘要輸出結果選擇最理想的一下個單詞。

強化學習

在建立同一條摘要時，不一樣的人每每會使用徹底不一樣的詞彙與句子——而這兩條摘要可能一樣準確有效。所以，良好的摘要並不必定須要儘量同訓練數據集中出現的詞彙序列相匹配。以此爲前提，做者們決定避免使用標準的指導強迫算法，而是在每一個解碼步驟內（即生成每一個單詞時）儘量減少丟失值。事實證實，他們選擇的這一強化學習策略確實很是有效。

來自近端到端模型的出色成果

這套模型接受了 CNN/Daily Mail 數據集的測試，並獲得了極爲出色的處理結果。除此以外，人類評估者亦對該模型做出了測試，並發現其摘要結果的可讀性與質量都有所提高。這些結果使人印象深入，特別是考慮到其僅須要很是基礎的預處理過程：對輸入文本進行標記與小寫化，然後將數字所有替換爲「0」，最終將數據集內的部分特定實體完全移除。

這是否表明着通往無監督機器翻譯的第一步？

所謂雙語詞典概括，是指利用兩種語言的源語與單語語料庫實現單詞識別與翻譯——這是一項歷史至關悠久的天然語言處理任務。自動生成的雙語詞典可以有力支持其它 NLP 類任務，包括信息檢索與統計類機器翻譯等。然而，此類方法大多高度依賴於某種資源——例如初始版本的雙語詞典。而這類詞典每每並不存在或者很難構建。

隨着詞嵌入機制的成功，人們開始考慮實現跨語言詞嵌入的可能性——其目標在於分配嵌入空間，而非創建詞典。遺憾的是，第一批實現方案仍然依賴於雙語詞典或對等語料庫。不過在實踐工做當中，Conneau 等人（2018 年）提出了一種極具發展前景的方法，其不依賴於任何特定資源，且在多種語言到語言翻譯、句子翻譯檢索以及跨語言單詞類似性類任務當中擁有優於現有監督學習方法的實際成效。

做者們開發出的方法是將所輸入的兩組詞嵌入以單一語言數據爲基礎進行獨立訓練，然後學習兩者之間的映射關係，從而使得翻譯結果在公共空間內儘量接近。做者們利用 fastText 對維基百科文檔進行無監督詞彙向量訓練，下圖所示爲這種方法的核心實現思路：

在兩套詞嵌入空間之間創建映射關係

其中紅色的 X 分佈爲英語單詞嵌入，而藍色的 Y 分佈則爲意大利語單詞嵌入。

做者們首先利用對抗性學習以獲取用於執行第一次初始對齊的旋轉矩陣 W。根據 Goodfellow 等（2014 年）提出的基本原則，他們構建起一套生成對抗網絡（簡稱 GAN）。若你們但願瞭解 GAN 的工做原理，推薦各位參閱本篇由 Pablo Soto 撰寫的文章。

爲了在對抗學習過程當中進行問題建模，他們在定義中爲鑑別器添加了斷定角色，同時隨機從 WX 與 Y 中提供某些樣本元素（詳見上圖中的第二列），藉以判斷這些元素屬於哪種語言。接下來，他們訓練 W 以防止鑑別器做出準確的預測。這種做法在我看來簡直有才，而其結果也至關使人滿意。

在此以後，他們利用兩個後續步驟進一步完善映射關係。其一是避免在映射計算中因罕見字的出現而引起問題。其二是構建實際翻譯能力，其中主要應用到已經學會的映射關係與距離度量機制。

在某些狀況下，這套模型擁有極爲先進的處理結果。例如在英語到意大利語的單詞翻譯過程當中，在 P@10 的狀況下，其可以以接近 17% 的精度完成源單詞翻譯（具體數量超過 1500 個）。

英語到意大利語單詞翻譯平均精度。

做者們宣稱，他們的方法將可以做爲無監督機器翻譯技術的重要起點。若是實際狀況真是如此，那麼將來的前景絕對值得期待。固然，咱們也但願看到這種新方法可以走得更快、更遠。

專用型框架與工具

目前市面上存在大量通用型深度學習框架與工具，其中 TensorFlow、Keras 以及 PyTorch 選項獲得了普遍使用。然而，專用型開源 NLP 深度學習框架及工具也開始興起。2017 年是使人振奮的一年，目前已經有很多很是實用的開源框架被交付至社區手中。而如下三款引發了個人濃厚興趣。

AllenNLP

AllenNLP 框架是一套構建於 PyTorch 之上的平臺，用於在語義 NLP 任務中輕鬆利用深度學習方法解決問題。其目標是幫助研究人員設計並評估新模型。該框架包含多種經常使用語義 NLP 任務的參考實驗模型，具體包括語義角色標記、文本引用以及共因解析等。

ParlAI

ParlAI 框架是一套開源軟件平臺，用於進行對話研究。其利用 Python 實現，旨在爲對話模型的共享、訓練與測試提供一套統一的框架。ParlAI 可以與 Amazon Mechanical Turk 實現輕鬆集成。另外，其還提供多種流行數據集，並可以支持大量神經模型——包括記憶網絡、seq2seq 以及關注型 LSTM 等。

OpenNMT

OpenNMT 工具集是一款通用型框架，專門用於序列到序列類模型。其可用於執行諸如機器翻譯、摘要、圖像到文本以及語音識別等任務。

寫在最後

毫無疑問，用於解決 NLP 類問題的深度學習技術正在不斷增長。在這方面的一大證實性指標，在於過去幾年來發表在 ACL、EMNLP、EACL 以及 NAACL 等關鍵性 NLP 會議上的深度學習論文在比例上出現了顯著提高。

深度學習論文百分比變化圖

然而，真正的端到端學習目前纔剛剛開始。咱們仍須要完成一些經典的 NLP 任務以籌備數據集，例如對某些實體（包括 URL、數字以及電子郵箱地址等）進行清洗、標記或者統一化調整。咱們還在利用各種通用型嵌入，其缺點在於沒法捕捉到特定領域術語的重要意義，且在多詞表達式的理解方面表現不佳——我在本身的工做項目中已經充分體會到了這些弊端。

對於將深度學習技術應用於 NLP 領域而言，2017 年無疑是偉大的一年。我但願 2018 年可以帶來更多端到端學習成果，而各種專用型開源框架也能獲得進一步發展。若是您對於本文中說起的各種成果及框架有着本身的見解，或者擁有您支持的方案，請在評論中與你們分享。

機器學習與大數據的發展與趨勢

2017 年，咱們見證了大數據將 AI 推向了技術浪潮之巔。AI 成爲媒體和從業者的注意力焦點，固然這其中包含了正面（各行各業日趨強大的機器學習算法和 AI 應用）和負面（機器將取代人類工做，甚至控制人類世界）的信息。咱們也目擊了基於數據的價值創新，包括數據科學平臺、深度學習和主要幾個廠商提供的機器學習雲服務，還有機器智能、規範性分析、行爲分析和物聯網。

咱們綜合整理了一些數據科學家、AI 專家對 2017 年機器學習和發數據發展示狀的總結，以及他們對 2018 年發展趨勢的預測，因爲篇幅有限咱們隱去了這些專家的名字，若是須要了解專家的詳細信息，請參看文末的參考文章，若是各位讀者有其餘補充和觀點，歡迎在評論區與咱們討論。

2017 的發展情況

AlphaGo Zero 帶來了一種新的加強學習方式，或許是 2017 年 AI 領域最重大的研究成果

2017 年，咱們看到了 AI 的大踏步發展。儘管以前的深度學習模型須要大量的數據來訓練算法，但神經網絡和加強學習的應用告訴咱們，大數據集並不是高效算法的必要條件。DeepMind 使用這些技術創造了 AlphaGo Zero，它的表現已經超出了以前的算法。

企業 AI 成爲主流

不少大型公司啓動了 AI 或機器學習項目，不過這些項目的目標有必定的侷限性。大型廠商的項目日趨走向開源，DIY 項目會愈來愈多。這意味着企業必須提高數據科學技能。例如：

（1）谷歌發佈了第二代 TPU，若是從能量方面來考量，它能夠節省數十億美圓。

（2）英偉達發佈的 Volta 架構基於特斯拉 GPU，每一個 GPU 能夠支持 120 萬億次浮點運算。

（3）D-Wave 量子計算機炒做風波平息，帶有 QISKit 量子編程框架的 20 量子位量子計算機出現。

機器學習被應用在數據集成上

2017 年是智能分析平臺的發展元年。從分析機器人到自動化機器學習，數據科學中出現了太多複雜、智能自動化的東西。數據集成和數據預備平臺可以智能地處理數據源，自動修復數據管道中的錯誤，甚至基於經過與人類交互學習而來的知識進行自我維護或完成數據質量處理任務。自動機器學習平臺和半自動化的特徵工程很快改變了數字分析領域的遊戲規則。

數據科學自動化，出現了不少自動化機器學習平臺。機器學習解決了數據分析和數據管理的大難題，須要大量人工介入的數據集成被某種程度的自動化方式所取代，爲咱們節省了大量時間。

保守的公司開始擁抱開源

最爲保守的傳統公司（如銀行、保險、健康醫療）開始主動使用開源的數據分析、AI 和數據管理軟件。有些公司鼓勵員工拋棄使用具備著做權的工具，有些則只建議在個別項目上使用它們。這其中有成本方面的考慮，但更好的性能和招聘方面的便利也是重要的考慮因素。

Python、Java 和 R 語言從 2017 年開始成爲最爲吃香的編程語言

人們對 AI 發展的期待快過其實際發展程度

2018 年趨勢預測

AI 將更多應用在商業領域

2018 年，AI 的發展腳步會加快，AI 的價值將在這一年獲得體現：

McAfree 實驗室的研究報告代表，對抗機器學習將被用在網絡入侵檢測、欺詐檢測、垃圾檢測和木馬檢測上。
HPE 將研發標量積引擎，並推出本身的神經網絡芯片，用於高性能推理計算，如深度神經網絡、卷積神經網絡和循環神經網絡。
無監督學習和自治學習將助力機器人與周圍的陸上環境和水下環境互動。
機器學習在物聯網和邊緣計算領域的應用門檻將會下降，空間位置智能將出現突破性的算法，應用在手機、RFID 傳感器、UAV、無人機和衛星上。
機器學習應用繼續擴張領地，好比市場、金融風險、欺詐檢測、勞動力優化配置、製造業和健康醫療。
深度學習無論在勢頭上仍是在實際應用價值上都蓬勃發展。一系列新型的高級神經網絡將機器學習提高到新的高度，以高性能解決大信號輸入問題，如圖像分類（自動駕駛、醫療圖像）、聲音（語音識別、說話者識別）、文本（文本分類），甚至是「標準」的業務問題。

這一領域的開發內容與 2017 年相比可能不會有太大變化：流程自動化、機器智能、客戶服務、我的定製化以及勞動力轉型。物聯網領域的發展也會更加成熟，包括更加成熟的安全特性、模塊化平臺、用於訪問傳感器數據流的 API 以及邊緣分析接口。咱們也將看到數字化在其餘領域成爲主流，如製造行業、基礎設施領域、工程領域和建築行業。咱們相信，2018 年會有更多的從業者將 AI 的優點帶向更廣大的領域。

2017 年是星光耀眼的一年，不少甚至跟 AI 都擦不上邊的廠商開始提供 AI 產品。2018 年，咱們將看到 AI 和機器學習應用在更多的商業領域。爲何這麼說？由於那些亟待解決業務問題的大佬們並不關心具體的技術將怎樣發展，他們會千方百計加速供應鏈流動，想知道客戶的動向，並向計算機尋求答案。那些可以以最快速度提供預測分析的廠商將成爲遊戲規則的制定者。

獨立 AI 初創公司將走向衰落

在過去幾年，風險資本的追捧催生了數百家 AI 初創公司，每家公司都只解決一小部分問題。儘管它們很努力，但要在現有的流程中實現集成將是一個巨大的挑戰。所以，現有的公司要麼提供易於集成的 AI「微服務」，要麼向已經將 AI 嵌入到事務系統中的廠商購買服務。

規則與安全將相當重要

隨着 AI 在衆多領域的應用，如犯罪審判、金融、教育和職場，咱們須要創建算法標準來評估它們的準確性。關於 AI 對社會影響的研究將會持續增加，包括創建 AI 的適用規則（好比避免決策黑盒）以及瞭解深度學習算法是如何作出決策的。

安全問題將繼續升溫，企業將在安全方面投入更多的精力，提高區塊鏈可見性是提高公司數據安全性行之有效的方式。期待下一年可以看到自動化 AI 被無縫地集成到更多的分析和決策過程當中。歐洲通用數據保護條例的實施確保數據不會被濫用，從而更好地保護我的數據。

量子計算將吸引更多目光

量子機器學習的將來取決於擁有更多狀態的量子位，多是 10 以上，而不是隻能支持兩種狀態的量子位。量子計算和數據科學算法將吸引更多人的眼球，儘管真正的量子計算機還離咱們很遙遠。

AI 泡沫將持續膨脹

人們從 2017 年開始大肆談論機器學習、AI 和預測分析，惋惜大部分公司或廠商都是在故弄玄虛，他們根本沒有真正的實力去作這些事情。這些領域須要時間和人才，實打實的經驗是很是重要的！AI 泡沫將繼續膨脹，不過咱們也會看到沉澱的跡象。AI 仍然會被過分吹捧。

數據科學家羣體將擴大

數據分析員和數據科學家須要知道哪些算法能夠用來作什麼。分析和機器學習的自動化將產生多元化的算法，有可能會出現「人人都是數據科學家」的局面。與此同時，GDPR（歐洲通用數據保護條例）將在 2018 年 5 月 25 號開始實行，這將給數據科學帶來重要影響。

2018 年將是數據科學和預測分析領域出現衆多領頭羊的一年，不僅是由於這是大勢所趨，根本緣由是它們將給咱們的業務帶來真正的改變。預測招聘能夠爲你省下數百萬美圓的招聘經費，AI 和機器學習能夠在幾秒鐘內徹底以前須要幾天才能完成的事情。

2018 年，實現「人人都是數據科學家」的目標將是頭等大事。從專家的經驗來看，團隊仍然須要保持綜合性結構：爲不具有數據分析背景的員工和高層提供工具來幫助他們作出決策。更重要的是，團隊須要開發出本身的數據模型，要有可以理解模型和特定分析技術侷限性的的數據科學家。

參考文章

https://tryolabs.com/blog/2017/12/12/deep-learning-for-nlp-advancements-and-trends-in-2017/

https://www.kdnuggets.com/2017/12/data-science-machine-learning-main-developments-trends.html

關注咱們的微信號"AI前線"，後臺回覆「AI」可得到《AI前線》系列PDF電子書

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。