Spark SQL 數據源 API:Spark平臺的統一數據接入 @網路冷眼html
市民眼中的綠地爲什麼沒那麼多?用大數據講述城市意象 @市政廳官微web
Fig部署Docker @Easy 算法
HIVE的CTAS用法探究 @IT技術博客大學習docker
Docker爲什麼會火? @灣區日報BayArea數據庫
@好東西傳送門 出品, 過往目錄見 http://bd.memect.com編程
訂閱:給 hao@memect.com 發封空信, 標題: 訂閱大數據日報 或點擊 點我訂閱安全
本期話題有:(點擊橢圓標籤可只看這一主題)網絡
所有23 分析9 虛擬化6 應用3 數據庫1 會議活動1 計算框架1 書籍1數據結構
計算框架 Spark
【Spark SQL 數據源 API:Spark平臺的統一數據接入】自從Spark 1.0版本的Spark SQL問世以來,它最多見的用途之一就是做爲從Spark平臺上面獲取數據的一個渠道。到了Spark 1.2 版本,咱們已經邁出了下一步,讓Spark的原生資源和更多的輸入源進行整合集成。http://t.cn/Rwq4If2
應用 規劃
咱們能夠從大數據中找到市民心中的城市意象。從城市建設用地指標上看,上海並不比東京的綠地率少多少,但在居民感覺中,東京實在是比上海綠得太多太多了。【@澎湃新聞:市政廳|市民眼中的綠地爲什麼沒那麼多?用大數據講述城市意象】 http://t.cn/RwtZDfE
虛擬化 Docker 代碼 容器
Fig:Fast, isolated development environments using Docker. http://t.cn/Rhcsp1y @luofei614 這個工具看起來不錯…
IT技術博客大學習 原微博 2015-02-14 09:14
數據庫
【HIVE的CTAS用法探究】 最近在使用ADM系統的時候遇到一個問題,ADM在自動將HIVE QL包裝成CTAS以後,因爲HIVE內部缺省使用’\\N’來存儲NULL,這樣就會產生一個問題,由於咱們處理的不少結果數據是須要導出附... 詳見:http://t.cn/zjCQf9L
灣區日報BayArea 原微博 2015-02-14 07:51
虛擬化 Docker 容器
Docker爲什麼會火? http://t.cn/Rw5u72q 寫得很好的文章。裏面的一個觀點頗有意思:「The Docker product came from a non-threatening source, a small startup (DotCloud) that was able to broadly partner across the whole industry. 」 #灣區日報#
應用 新聞
#每週數據新聞精選# 本期亮點:Vox網站的數據新聞理念、《紐約時報》的新嘗試「The Upshot」,《愛爾蘭時報》數據團隊,還有《柏林晨報》最新交互設計。@數據新聞 @財新數據可視化實驗室 http://t.cn/Rwci7yG
分析
[文章]《Career Spotlight: What I Do as a Data Scientist》http://t.cn/Rwt680s "Spend as much time learning analytics communication as learning models"。職業生涯亮點:聚焦數據科學家。
分析 機器學習
機器學習日報 2015-02-13 http://t.cn/RwtJ0l6 1) 世紀佳緣用戶推薦系統的發展歷史 2) 經過數據分析解讀GDP系列文章 3) OpenCV進階之路:神經網絡識別車牌字符 4) New Directions in Recommender Systems 5) Andrej Karpathy的反擊 可點擊加長版16條 http://t.cn/RwtJjwp
西瓜大丸子湯 原微博 轉發於2015-02-14 11:55
v2ex版 http://t.cn/RwtoTZr
分析 虛擬化 Docker 可視化 容器
大數據日報 2015-02-13 http://t.cn/RwtVqGE 1) 去硅谷當個大數據工程師,你要這麼作 2) 可視化存儲智能解決方案 3) CrowdFlower的2015年數據科學領域報告 4) 大數據中的百年社會學 5) awesome docker 可點擊加長版32條 http://t.cn/RwtVfTu
分析 書籍
每日新書:《R數據分析——方法與案例詳解(雙色)》本書是一本R 語言和數據分析的入門教材,每一個知識點儘可能從實際的應用案例出發,以問題爲導向,在解決問題中學習統計方法、R 語言的基本使用以及編程技巧。內容涵蓋R 數據結構、抽樣模擬、統計分析、假設檢驗、迴歸分析、統計繪圖和R 包製做等內容。
Linuxeden開源社區 原微博 2015-02-14 08:24
【Node.js基金會成立,Joyent交出領導權】 Node.js 是一個基於Chrome JavaScript運行時創建、流行、開源、跨平臺的運行時環境。近日,雲計算服務商Joyent終於 宣佈 成立Node.js的開源基金…http://t.cn/Rw5dr58
HackerNewsDaily 原微博 2015-02-14 05:30
虛擬化 Docker 容器
《App Container and Docker》原文:http://t.cn/Rw5Qx1u HN評論:http://t.cn/Rw5QQGS
更早的微博,有新精彩評論或被再次推薦
分析 丁士正
【怎麼評價產品經理拿數聽說話這回事?如何作數據分析?】丁士正 : 這幾個月在一家爲客戶在Facebook上作廣告的加拿大公司工做。簡單說說他們對於數據的態度吧。這是一家小型Startup公司,總共不到20我的。其中4我的(包括我)是技術,剩下… http://t.cn/anzXrS(分享自 @知乎)
【TT大數據】一年一度的情(shi)人(shen)節就要來了,你的TT買好了嗎?想知道什麼品牌更受歡迎嗎?超薄體貼、凸點螺紋和果味刺激哪一個更受你們歡迎呢?下面由星圖數據的小編帶你探索TT中稀(mei)奇(you)古(xia)怪(xian)的大數據!
若是線上線下三七開的話,節前大概能賣出1億多的安全套。我在想,今天晚上全國一共能消耗多少個TT呢?
分析
[文章]經過數據分析解讀GDP系列文章,該系列包含三篇文章,第一篇GDP助推因素分析http://t.cn/Rwq1xnh和第二篇各國經濟數據的蒙特卡洛k-means聚類分析http://t.cn/Rwq1OfA 已經放出,第三篇關於將來GDP增加趨勢預測的文章還沒放,基於數據分析的現代經濟學典範,推薦閱讀 雲:http://t.cn/RwqBOdx
【空氣質量分佈式監測成功案例,雲創存儲已在全國部署了大量的空氣傳感器,今年以內將超過全國的總和】在江蘇,爲江蘇省環保廳1831平臺建設提供了技術支撐,實現了大數據技術與環保的高度結合。http://t.cn/Rwba1Yy @專一雲計算 @何春銀微想
分析 會議活動 活動 教育網站 課程
上海科技大學信息學院將於六月舉辦第一屆ShanghaiTech Symposium on Data Science: http://t.cn/Rwql0MN屆時國際國內關於數據處理的理論、計算、學習、與應用的頂尖學者(主要是中青年)將做20多場學術報告與多個關於Sparse、DNN、和Cloud等的短訓課程。這將是一場真正的關於數據科學的豪門盛宴!
虛擬化 Docker 容器
【Java開發人員:如何穿過Docker現象這片「叢林」】今天咱們來談談Java開發人員如何可以穿過Docker現象這片叢林,更容易瞭解使用這種熱門新技術來簡化開發流程的種種好處。咱們在本文中將探討你能夠用Docker來完成什麼以及如何認識Docker這項新興技術。http://t.cn/Rwqf3KY @專一雲計算
科學通報的一期大數據研究與應用http://t.cn/RwU4d5N 咱們撰文《面向大社交數據的深度分析與挖掘》http://t.cn/RwU4d5p
裴智勇
【中國首個網絡騙子地圖上線】中國首個用大數據追蹤網絡詐騙的「中國網絡騙子地圖」9日正式上線,網民能夠經過該地圖實時發現所在地區的釣魚網站等網絡詐騙方式,從而提升警戒,避免上當受騙。http://t.cn/RwyvJxz
自動化網官方微博 原微博 轉發於2015-02-14 10:59
<裴智勇:360將陸續對公衆開放系列安全大數據可視化產品>360安全大數據平臺負責人裴智勇表示,2015年,繼「中國網絡騙子地圖」上線後,還將陸續對公衆開放系列安全大數據可視化產品,讓公衆提升網絡安全意識,同努力,以真正實現「網上無賊」,提高中國網民互聯網上的安全感。#每週熱博#
ArnetMiner 原微博 2015-02-11 00:28
分析 應用
[Call for Paper & Scholar data challenge] IEEE成立了大數據Transaction(IEEE Transaction on Big Data), 這期專刊是大科學數據挖掘競賽,http://t.cn/RwyRDaI 歡迎投稿!專刊使用AMiner數據,專家發現、Profile抽取、學術預測、推薦。盡情發揮您的想象。@劉知遠THU @西瓜大丸子湯 @李航博士
虛擬化 Docker 容器
唱衰Docker:http://t.cn/Rwwb1CJ
reddit上的討論:http://t.cn/RwtLWnn
分析
推薦這篇文章,分析了推薦系統中使用算法的誤區,確實規則帶來的好處簡單有效。 當一個作推薦系統的部門開始重視【數據清理,數據標柱,效果評測,數據統計,數據分析】這些所謂的髒活累活,這樣的推薦系統纔會有救。http://t.cn/RvxC543