機器學習的數據準備：爲何它如此重要，咱們應該怎麼作？

時間 2019-11-15

標籤機器學習數據準備爲何如此重要咱們應該怎麼简体版

原文原文鏈接

做者 | Nandhini TS
編譯 | CDA數據分析師

編碼是成功的業務模型的前提。算法

創建成功的AI / ML模型有3個方面：算法，數據和計算。數據庫

雖然創建準確的算法和計算技能的應用是過程的一部分，但這是什麼基礎呢？安全

使用正確的數據奠基基礎

從自動駕駛汽車等基於AI的大規模技術革命到構建很是簡單的算法，您都須要正確格式的數據。實際上，特斯拉和福特一直在經過行車記錄儀，傳感器和倒車攝像頭收集數據，並對其進行分析以製造出無人駕駛和全自動汽車，以確保安全的道路。網絡

收集數據以後的下一步是準備數據的過程，這將成爲本文的重點，並將在後續部分中詳細討論。在深刻研究數據準備過程的概念以前，讓咱們首先了解其含義。做爲基於AI創新的大腦的數據科學家，您須要瞭解數據準備的重要性，以實現模型所需的認知能力。機器學習

什麼是數據準備？

數據是每一個組織的寶貴資源。可是，若是咱們不進一步分析該聲明，它可能會否認本身。企業將數據用於各類目的。從廣義上講，它用於制定明智的業務決策，執行成功的銷售和營銷活動等。可是，這些不能僅用原始數據來實現。工具

數據只有通過清洗，貼標籤，註釋和準備後，才能成爲寶貴的資源。數據通過適應性測試的各個階段後，便最終具有進行進一步處理的資格。處理能夠採用多種方法-將數據提取到BI工具，CRM數據庫，開發用於分析模型的算法，數據管理工具等。學習

如今，重要的是您今後信息的分析中收集的看法是準確且值得信賴的。實現此輸出的基礎在於數據的健康情況。此外，不管您是構建本身的模型仍是從第三方那裏得到模型，都必須確保標記，擴充，乾淨，結構化的整個過程背後的數據都通過標記，歸納，即數據準備。測試

正如Wikipedia所定義的，數據準備是將原始數據（可能來自不一樣的數據源）操縱（或預處理）爲能夠方便，準確地進行分析的形式的行爲，例如出於商業目的。數據準備是數據分析項目的第一步，能夠包括許多離散任務，例如加載數據或數據攝取，數據融合，數據清理，數據擴充和數據交付。編碼

機器學習數據準備的重要性

根據Cognilytica的最新研究，其中記錄並分析了組織，機構和最終用戶企業的響應，以識別在標記，註釋，清理，擴充和豐富機器學習模型的數據上花費了大量時間。加密

數據科學家80％以上的時間都花在準備數據上。儘管這是一個好兆頭，但考慮到隨着良好的數據進入創建分析模型，準確的人會獲得輸出。可是，理想狀況下，數據科學家應該將更多的時間花在與數據交互，高級分析，培訓和評估模型以及部署到生產上。

只有20％的時間進入流程的主要部分。爲了克服時間限制，組織須要利用用於數據工程，標記和準備的專家解決方案來減小在清理，擴充，標記和豐富數據上花費的時間（取決於項目的複雜性）。

這將咱們帶入了「 垃圾中的垃圾 」概念，即輸出的質量取決於輸入的質量。

數據準備過程

如下是針對機器學習模型的數據準備過程的簡要介紹：

數據提取數據工做流程的第一階段是提取過程，一般是從非結構化源（如網頁，PDF文檔，假脫機文件，電子郵件等）中檢索數據。部署從網絡中提取信息的過程稱爲網絡刮。

數據概要分析是檢查現有數據以提升質量並經過格式帶來結構的過程。這有助於評估質量和對特定標準的一致性。當數據集不平衡且配置不當時，大多數機器學習模型將沒法正常工做。

數據清理可確保數據乾淨，全面，無錯誤，並提供準確的信息，由於它不只能夠檢測文本和數字的異常值，還能夠檢測圖像中無關的像素。您能夠消除偏見和過期的信息，以確保您的數據是乾淨的。

數據轉換是對數據進行轉換以使其均勻。地址，名稱和其餘字段類型之類的數據以不一樣的格式表示，數據轉換有助於對此進行標準化和規範化。

數據匿名化是從數據集中刪除或加密我的信息以保護隱私的過程。

數據擴充用於使可用於訓練模型的數據多樣化。在不提取新信息的狀況下引入其餘信息包括裁剪和填充以訓練神經網絡。

數據採樣識別大型數據集中的表明性子集，以分析和處理數據。

特徵工程是將機器學習模型分類爲好模型仍是壞模型的主要決定因素。爲了提升模型的準確性，您能夠將數據集合並以將其合併爲一個。

這是一個例子：

假設有兩列，一列是收入，另外一列是輸出分類（A，B，C）。輸出A，B，C取決於收入範圍$ 2k-$ 3K，$ 4k-$ 5K和$ 6K-$ 7K。新功能是在收入範圍內分配數值1,2和3。如今，這些數值被映射到咱們最初建立的3個數據集。

在這裏，收入範圍是要素工程。

數據準備過程的另外一個重要部分是標記。爲了使這個概念易於理解，讓我以熱飲料（例如茶）爲例。

如今，該項目的目標是肯定特定類型茶中所含咖啡因的百分比或數量。

紅茶含咖啡因20 毫克茶+牛奶含咖啡因11 毫克草茶含咖啡因0毫克伯爵灰茶咖啡因40毫克

注意：（咖啡因百分比以100克茶計算）

所以，ML模型將爲咖啡因含量最高的伯爵茶分配一個數值，例如1，爲紅茶分配2，依此類推。這將咱們帶入有助於識別數據集的標籤概念。

數據標記-數據準備必不可少的組成部分

標記只是將標籤分配給一組未標記的數據，以使其更易於識別以進行預測分析。

這些標籤代表照片中的動物是狗仍是狐狸（請參見下圖）。

經過向模型提供數百萬個標記數據，標記能夠幫助機器學習模型猜想和預測一條未標記數據。

數據標記的一些用例：

視頻和圖像的圖像分類/註釋包括圖像的註釋，其描述，邊界框定義等。
會話標記一個典型的例子是聊天機器人，其中對數據進行標記和訓練以使與用戶的對話更加真實和相關。
情感分析數據

標籤是文本仍是圖像，以瞭解內容的情感，例如在推文中。

語音和文本NLP

是音頻和文本源的標籤。

人臉檢測標籤圖像集和訓練，以進行準確的檢測和預測

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。