網站數據分析(4)——數據來源類型

數據化運營的數據來源類型包括數據文件、數據庫、API、流式數據、外部公開數據和其餘來源等。html

1、數據文件

數據文件就是存儲數據的文件,廣義上,任何文件中存儲的信息均可以稱爲數據;狹義上,數據文件中以數字或文本形式存儲的結構化的 數據記錄纔是數據。本節的數據指的是後者。算法

結構化數據文件大多來源於數據庫,例如從MySQL中導出2017-01-04到2017-10-21的訂單明細數據並存儲爲csv文件;也有來源於系統或工 具的工做過程或返回結果,例如Windows版本的Tesseract文字識別後的結果會存儲到txt文本文件中。 數據文件常見的數據格式類型包括txt、csv、tsv、xls、xlsx等,也包括xml、html、doc、sql等很是規數據格式。文件格式取決於數據處理 需求,也受限於來源系統的導出格式。sql

下圖所示爲MySQL 5.0版本能夠導出的數據格式。數據庫

大多數狀況下,txt(任意指定分隔符)、cvs(以逗號分隔的數據文件)、tsv(以tab製表符分隔的數據文件)是最經常使用的數據文件格式。當數據文件大小在百兆級別如下時,可使用Excel等工具打開;數據文件大小在百兆級別時,推薦使用Notepad打開;當數據文件大小在G級別時,推薦使用UltraEdit打開。編程

2、數據庫

數據庫(DataBase)是按照數據結構來組織、存儲和管理數據的倉庫。數據庫普遍應用於CMS(內容管理系統)、CRM(客戶關係管理 系統)、OA(辦公自動化)、ERP(企業資源計劃)、財務系統、DSS(決策支持系統)、數據倉庫和數據集市、進銷存管理、生產管 理、倉儲管理等各種企業運營事務之中。bash

數據庫的主要應用包括數據的定義、存儲、增長、刪除、更新、查詢等事務型工做,數據傳輸、同步、抽取、轉換、加載等數據清洗工 做,數據計算、關聯查詢、OLAP等分析型工做以及數據權限控制、數據質量維護、異構數據庫和多系統通訊交互等工做。 數據庫按類型分爲關係型數據庫和非關係型數據庫(又稱NoSQL數據庫)。關係型數據庫在企業中很是常見,在傳統企業中更爲流行,常見的關係型數據庫包括DB二、Sybase、Oracle、PostgreSQL、SQL Server、MySQL等;非關係型數據庫隨着企業經營場景的多樣化以及大數據場景的出現,根據應用場景和結構分爲如下幾類:服務器

  • 面向高性能併發讀寫的鍵值(Key-Value)數據庫:優勢是具備極高的併發讀寫性能、查找速度快,典型表明是Redis、Tokyo Cabinet、 Voldemort。
  • 面向海量文檔的文檔數據庫:優勢是對數據要求不嚴格,無須提早定義和維護表結構,典型表明爲MongoDB、CouchDB。
  • 面向可擴展性的列式數據庫:優勢是查找速度快,可擴展性強,經過分佈式擴展來適應數據量的增長以及數據結構的變化,典型表明是 Cassandra、HBase、Riak
  • 面向圖結構的圖形數據庫(Graph Database):優勢是利用圖結構 相關算法,知足特定的數據計算需求,例如最短路徑搜尋、關係查詢 等,典型表明是Neo4J、InfoGrid、Infinite Graph。

3、API

API(Application Programming Interface)是應用程序編程接口,數據化運營中的API一般分爲服務型API和數據型API。微信

服務型API能夠基於預約義的規則,經過調用API實現特定功能。 例如,經過調用百度地圖JavaScript API能夠在網站中構建功能豐富、交互性強的地圖應用,這種API下輸入的是地理位置數據,從API得到的輸出是可視化地圖(服務/功能)。網絡

數據型API則經過特定的語法,經過向服務器發送數據請求,返回特定格式的數據(或數據文件)。例如,經過向Google Analytics的 Analytics Reporting API V4發送請求來得到符合特定條件的數據記錄。數據結構

API普遍應用於企業內部和外部多系統和平臺交互。API返回的數 據格式,大多數狀況下是JSON、XML格式。 JSON是一種輕量級的數據交換格式,由流行的JavaScript編程語言建立,普遍應用於Web數據交互。JSON格式簡潔、結構清晰,使用鍵 值對(Key:Value)的格式存儲數據對象。Key是數據對象的屬性,Value是數據對象屬性的對應值。例如,「性別」:「男」就是一個 Key:Value結構的數據。JSON格式數據示例以下:

{
    "category": { 
      "name": "電腦", 
      "brands": {
            "brand": [ 
                "DELL", "THINKPAD" 
                ] 
            } 
    } 
}
複製代碼

XML是可擴展標記語言,提供了統一的方法來描述和交換獨立於應用程序或供應商的結構化數據,這是一種很是成熟且強大的數據格 式。像JSON同樣,XML提供了很是好的擴展性,API的建立者可使用它們建立本身的數據結構。XML格式數據示例以下:

<?xmlversion="1.0"encoding="utf-8"?>
<category>
    <name>電腦</name><brands>
        <brand>DELL</brand>
        <brand>THINKPAD</brand>
    </brands>
</category>
複製代碼

4、流式數據

流式數據指的是實時或接近實時處理的大數據流。常見的流式數據處理使用Spark、Storm和Samza等框架,能在毫秒到秒之間完成做業,用於處理時效性較強的場景,例如在線個性化推薦系統、網站用戶實時行爲採集和分析、物聯網機器日誌實時分析、金融實時消費反欺詐、實時異常人員識別等,應用領域集中在實時性較強的互聯網、移動互聯網、物聯網等。

按照數據對象來區別,流式數據可分爲兩類:

第一類是用戶行爲數據流。 用戶行爲數據流是圍繞「人」產生的數據流,包括用戶在網站和APP內部因瀏覽、搜索、評論、分享、交易以及在外部的微博、微信中操做而產生的數據流。用戶行爲數據流採集平臺可分爲Web站、移動站和APP(包含iOS、Android、Windows等)應用。Web站及基於HTML5開發的移動應用都支持JS腳本採集,較早開發的不支持JS的Wap站(如今基本上不多)則採用NoScript方法,即一個像素的硬圖片實現數據跟蹤。SDK是針對APP提供數據採集的特定方法和框架。這三種方法能夠實現目前全部線上用戶行爲數據採集的需求。

第二類是機器數據流。 機器數據流是圍繞「物」產生的數據流,包括從機器的生產、製造、應用、監控和管理等過程當中產生的全部數據,例如機器運行日誌、傳感器監控數據、音頻採集器數據、監控圖像和視 頻、GPS地理數據等。 機器數據流一般集中在工業4.0、智能工廠等工業的智能運營管理過程當中,也出如今物聯網、人工智能等人和物的監控、識別、聯通、互動等智能化應用中。機器數據流扮演着實時採集目標對象屬性、狀態、行爲、信號等數據的角色。

5、外部公開數據

外部公開數據指公開的任意第三方都能獲取的數據。

數據化運營所需的外部公開數據來源渠道衆多,常見的包括:

  • 政府和相關機構提供的公開數據,例如國家統計局提供的月度CPI 數據;
  • 競爭對手主動公開的數據,例如經過新聞發佈會、網絡宣傳等發佈的數據;
  • 行業協會或相關平臺組織提供的統計、資訊數據,例如艾瑞提供的行業研究報告發布的數據;
  • 第三方的組織或我的披露的與企業運營相關的數據,例若有關競爭對手的供應商、客戶等數據。

6、其餘

在某些場景下,企業數據化運營所用數據還會有其餘來源,例如經過調研問卷得到的有關產品、客戶等方面的數據,從第三方平臺直接購買的數據,經過與其餘廠商合做所得交互數據等。因爲這些場景比較 少,而且不是企業主流的數據獲取來源,在此不做過多闡述。

相關文章
相關標籤/搜索