摘要:隨着自媒體的發展,傳統媒體面臨着巨大的壓力和挑戰,新華智雲運用大數據和人工智能技術,致力於爲媒體行業賦能。經過媒體大數據開放平臺,將媒體行業全網數據彙總起來,藉助平臺數據處理能力和算法能力,將有價值數據內容和能力開放給用戶。本文主要重新華智雲數芯平臺,媒體行業數據特徵,批流處理數據架構,以及通用的媒體大數據平臺能力等幾個方面介紹瞭如何基於MaxCompute作媒體大數據開放平臺建設。算法
演講嘉賓簡介:
李金波,新華智雲首席數據官。負責阿里巴巴大數據通用計算平臺MaxCompute(原ODPS)框架架構。對高可用分佈式系統設計開發有多年經驗。前後研發過阿里巴巴機器學習平臺在線預測系統和通用大數據計算平臺框架系統。
本次直播視頻精彩回顧,戳這裏!https://yq.aliyun.com/live/796
如下內容根據演講嘉賓視頻分享整理而成。
本次的分享主要圍繞如下五個方面:數據庫
1、關於新華智雲
2、數芯-媒體大數據開放平臺
3、媒體大數據平臺能力
4、Project依賴
5、幾點小提示微信
1、關於新華智雲
新華智雲是新華社與阿里巴巴合資成立的一家公司,主要面向運用大數據和人工智能技術,致力於爲媒體行業賦能。隨着自媒體的發展,自媒體公司很是的火熱,現在日頭條,抖音等。對傳統媒體來講,面臨着巨大的壓力和挑戰。傳統媒體急切的但願互聯網的技術幫助他們賦能。數據結構
媒體大腦-數芯架構
媒體大腦是新華智雲底層的產品品牌,數芯是媒體大腦基礎的數據平臺。數芯定位爲媒體大數據開放平臺,平臺中包含了媒體行業所依賴的各類各樣的數據。數芯但願經過平臺自己的數據處理能力和算法加工,將挖掘的有價值數據內容和能力開放給上層用戶。目前,數芯包含了各類各樣的數據,涵蓋了400多萬互聯網站點,主要以中文站點爲主,日增7千萬文章,包含微信公衆號,微博帳號,圖片以及多媒體來源等。將不一樣來源存儲在平臺中,以後對接數據,進行更多的加工和運用。「數據已經再也不是一種成本,而是成爲一種生產資料」,這句話在媒體行業更可以有所感覺。一篇新聞除了是新聞以外,仍是一條數據,同時新聞自己又會衍化產生新聞。不少媒體公司利用互聯網技術得到大量的新聞內容以後,輔助他們新聞的生成過程。數芯會將媒體數據從不一樣的源頭,不一樣供應商,以不一樣內容格式存儲到平臺中,進行數據清洗,結構化,加工等等一系列的操做以後,生成有價值的內容。如,這段時間以內媒體關注的熱點,互聯網上發生的事件,同時識別新聞和機構之間的關係,基於實體將各個渠道上的數據整合起來,爲用戶提供統一的視圖。用戶能夠看到信息的發酵過程,以及信息在什麼地方傳播。框架
2、數芯-媒體大數據開放平臺運維
數芯是一個開放的大數據平臺,開放的點主要有三個方面。第一,數據的開放。任何數據進到數芯以後,都會在整個大數據處理的鏈條中作計算,內容結構化,加入標籤。同時基於用戶感興趣的數據範圍,作標籤的特徵過濾,篩選用戶想要的數據。數芯幫助用戶瞭解互聯上的信息,瞭解互聯網上與自身相關的事件。第二,數芯提供智能能力的開放。用戶無論怎麼努力,不可能獲取到互聯網上全部的數據;並且不可能每一個公司都會自建內容大數據平臺,作數據分析,也不可能都配備算法工程師;並且公司的數據處理能力也不是足夠強;媒體大數據平臺能夠幫助用戶將與他們有關的數據加工好,經過算法能力得到用戶關心的信息。如用戶提供一個文章,數芯能夠反饋這篇文章與誰相關,相同的文章在什麼地方傳播,文章由誰編寫,發在什麼地方等等信息。經過開放算法能力,幫助用戶作數據能力和算法能力的應用,提供文本反垃圾服務,互聯網內容結構化服務,文本內容實體識別服務,文本去重斷定服務,圖像人物識別服務和圖像標籤化服務等等。第三,產品能力的開發,包含輿情監測能力,版權檢測,傳播分析等能力。機器學習
媒體數據特徵分佈式
媒體大數據有三大特徵,第一,媒體數據是非結構化性很是強。與傳統行業數倉最大的區別是媒體行業90%以上數據都是非結構化的,如文本,圖片,視頻等等。第二,數據來源多樣性。媒體行業數據有多種外部的數據源,它們有不一樣的數據提供的方式,提供不一樣的數據能力。因此必需要有強大的數據彙總能力才能將全部數據彙總在一塊兒並服務好下游客戶。另外,數據效性要求很是高。媒體行業自然追逐新聞熱點,假如知道一個事件是潛在的熱點,媒體但願第一時間對熱點進行追蹤,報道和解讀。媒體機構但願經過數芯平臺,可以最快的發現互聯網上發生的事情,發現熱點以後以最快的方式,將結構化後的數據給到用戶。工具
批流處理結合
基於媒體行業數據的特徵,數芯平臺採起批,流結合的方式解決目前客戶和業務場景對數據的要求。批指的是大量的計算,基於平臺特徵完成複雜的模型,算法訓練,長週期計算,文本實體識別,文本挖掘,藉助批量的能力解決數據更深度,更大規模的加工。流指的是流式的計算,完成數據的清洗,結構化,輕計算和實時統計。出來一篇新聞,在整個新聞流傳的過程當中實時的將信息處理好。目前數芯總體的流計算大概須要300毫秒,即一篇新聞從源頭過來,存儲到平臺,服務化出去中間須要通過300毫秒的時間。
批流結合的數據架構
數據從不一樣數據源過來,如API,OTS,ROS,log,file等,一方面數據要在實時計算當中作URL去重,正文結構化,標記來源,垃圾識別,實體識別和輕度的實時統計。另外基於MaxCompute,利用DataHub將數據存儲在批處理平臺中,因爲流計算自己不作持久化存儲,因此全部數據都將存儲在MaxCompute上。數據存儲以後作主題建設,關係挖掘,知識圖譜計算,算法訓練。經過批流結合的的處理方式可以知足客戶對數據自己能力的須要。以後,給用戶提供搜索能力,大屏能力和BI能力等。
3、媒體大數據平臺能力
內容結構化
人們在網頁當中看到一篇新聞,而在數據庫當中新聞是按字段存儲的。好比,分爲新聞標題,發佈網站,時間,新聞來源,情感等等。平臺須要將新聞信息進行結構化,成爲後續計算過程須要依賴的數據結構化字段。
主題構建
媒體行業會分主題建設數據。平臺會獲取到不一樣的數據源,不一樣類型的數據。這些數據不可能徹底的結合在一塊兒,數芯平臺會將全部數據分門別類的分紅不一樣主題,按不一樣主題建設,存放和加工。媒體是一個很是複雜的行業,對各個行業的數據都是有所訴求,媒體須要挖掘不少不一樣行業的數據支撐新聞生產和報道。目前,數芯集中在媒體內在的數據,體育,金融,氣象等幾個主題。數芯一方面將不一樣的數據源彙總到平臺當中,另外一方面數據進來以後,挖掘潛在的新聞點,生成選題策劃,幫助用戶作選題等等工做。
實體識別
實體識別對於媒體大數據來講是最基礎的能力。數芯目前積累的實體圍繞人,機構,地點等三類數據。新聞行業,媒體行業會圍繞某一個實體,關注與實體相關的數據能力。好比,不少公司會關注和本身相關的諮詢,關心這些新聞是正面仍是負面,哪些機構會發正面的信息,哪些機構會發負面的信息等。只有當將大批量的數據聚集起來以後,才能作相關內容的分析。實體識別場景在媒體大數據領域是很是基礎的能力,首先,創建實體庫。同時,當有一篇新聞產生,數芯須要實時的識別新聞與哪些人,機構和地點相關。另外,數芯須要聚集實體之間關係,作實體關係圖譜。好比,不少品牌會瞄準本身的競爭對手,調整品牌戰略,實體關係圖譜對不少公司品牌運營的推廣有很大的幫助。
情感分析
情感分析也是媒體大數據平臺中比較通用的能力,當一篇新聞出來以後,用戶須要知道是情感上褒義仍是貶義。信息數量少的信息能夠人工判斷,可是若是天天有上千篇,上完篇的內容就沒法經過人工來判斷。媒體行業的情感分析與學術上的情感分析有差別。目前,自媒體出來以後短文本的內容愈來愈多。短文本的情感分析和長文本的情感分析不一樣,以往都是採用同一個算法實現情感分析,但發現效果並很差。如今,數芯將情感分析場景分開,微博短文本的情感分析用Word2vec+LSTM,新聞類的長文本的情感分析用Word2vec+CNN+RNN。分開以後發現每一類情感分析的效果都有所提高。
內容去重
內容去重是媒體大數據平臺很是重要的一部分。去重能力是對於常見的新聞摘錄,編輯,刪減有準確的判重能力。一篇新聞並非只由一我的寫,它會被不少機構和渠道所轉發。如何知道一篇新聞在哪些渠道被轉發,其實就是經過去重的方式實現的。經過從大量的渠道聚集數據後,平臺須要比對一篇新聞與以前哪篇新聞類似,經過類似度的比對獲得結果。最先的時候,去重是基於關鍵詞進行比對,數芯採起關鍵詞和語義,兩種方式比對,去重效果明顯提高。內容去重能夠用於新聞的熱度計算,新聞數據顧慮清洗,文章版權追蹤等業務場景。
內容標籤化
搜索引擎能夠用來搜索新聞,經過關鍵詞和文章的匹配度來決定這篇內容是否推薦給用戶。但純搜索的方式已經知足不了用戶家的需求。今日頭條之因此成功,是由於它基於新聞和用戶的習慣推薦內容。內容標籤化就是經過機器的方式理解新聞,理解新聞與哪些信息相關,基於文本挖掘的手段,實現對於全網採集的內容數據進行分類打標。
4、Project依賴
不少時候,使用大數據平臺要不要分項目都是一個很難的抉擇。不分項目的好處是開發人員都在同一個平臺工做,互相之間不須要太多的受權,總體工做效率會比較高。分項目的好處是利用不一樣平臺作不一樣的業務會更清晰,更具條理性。數芯在開始使用MaxCompute時,便採起分項目方式,其考慮的緣由有如下三點。首先,分項目能夠區分業務優先級,避免低優先級任務影響高優先級的數據產出。另外,能夠區分資源消耗型,避免出現高資源消耗任務總體影響數據產出。還有區份內外服務,避免內部服務互相交叉影響。整體上,分項目能夠爲數據產出的穩定性提供很好的保障。
5、幾點小提示
首先,因爲媒體行業大部分數據都是非結構化的數據,會形成對單字段的容量要求比較大的問題。並且不一樣的平臺和傳輸工具對於數據的字段大小的限制不一樣。在從不一樣平臺作數據傳輸時,尤爲須要關注這個問題。
第二,能用UDF解決的問題,不要使用MR。使用UDF能夠提升開發和運維的效率。即儘可能用簡單的表達式處理邏輯,這對總體數據產出穩定性有好處。
第三,對查詢效率要求不高的數據報表能夠直連MaxCompute,減小中間環節。如此能夠大大減小數據轉換和數據維護成本。
第四,Datahub一方面能夠接數據源,另外還能夠較好的串聯批,流之間的計算流程,保持數據一致性和造成依賴。
第五,合理設計批,流的數據處理分工,減小重複計算。
第六,媒體大數據常常須要運用不一樣的算法,PAI能夠幫助解決不少算法問題,減小開發的工做量,提升數據處理的效率。
原文連接 更多技術乾貨 請關注阿里云云棲社區微信號 :yunqiinsight