2015年硅谷最火技術十問

1 硅谷最火的高科技創業公司都有哪些?

在硅谷你們很是熱情的談創業談機會,我也經過本身的一些觀察和積累,看到了很多最近幾年涌現的熱門創業公司。我給你們一個列表,這個是華爾街網站的全世界創業公司融資規模評選(http://graphics.wsj.com/billion-dollar-club/)。它原本的標題是billion startup club,我在去年國內講座也分享過,不到一年的時間,截至到2015年1月17日,如今的排名和規模已經發生了很大的變化。首先估值在10Billlon的達到了7家,而一年前一家都沒有。第二第一名是中國人家喻戶曉的小米,第三,前20名中,絕大多數(8成在美國,在加州,在硅谷,在舊金山!)好比Uber, Airbnb, Dropbox, Pinterest. 第四 裏面也有很多類似模式成功的,好比Flipkart就是印度市場的淘寶,Uber與Airbnb都是共享經濟的範疇。因此你們仍是能夠在移動(Uber),大數據(Palantir),消費級互聯網,通信(Snapchat),支付(Square),O2O App裏面尋找下大機會。這裏面不少公司我都親自面試和感覺過他們的環境。node

2 有如此之多的高估值公司,是否意味着存在很大的泡沫?

看了那麼多高估值公司,不少人都以爲很是瘋狂,這是否是很大泡沫了,泡沫是否是要破了,是不少人的疑問。我認爲在硅谷這個充滿夢想的地方,投資人鼓勵創業者大膽去作一樣也滋長了泡沫,不少項目在幾個月的時間就會估值翻2,3倍,如Uber,Snapchat上我也驚訝於他們的鉅額融資規模。那麼這張圖就是講「新興技術炒做」週期,把各種技術按照技術成熟度和指望值分類,在硅谷創業孵化器YCombinator 課程How to Start a Startup提到。創新萌芽Innovation Trigger」、「指望最頂點Peak ofInflated Expectation」、「下調預期至低點Trough of Disillusion」、「迴歸理想Slope ofEnlightenment」、「生產率平臺Plateau of Productivity」,越往左,技術約新潮,越處於概念階段;越往右,技術約成熟,約進入商業化應用,發揮出提升生產率的效果。縱軸表明預期值,人們對於新技術一般會隨着認識的深刻,預期不斷升溫,伴之以媒體炒做而到達頂峯;隨之因技術瓶頸或其餘緣由,預期逐漸冷卻至低點,但技術技術成熟後,指望又從新上升,從新積累用戶,而後就到了可持續增加的健康軌道上來。Gartner公司每一年發佈技術趨勢炒做圖,Gartner's 2014 Hype Cycle for Emerging Technologies Maps the Journey to Digital Business今年和去年的圖對比顯示,物聯網、自動駕駛汽車、消費級3D打印、天然語言問答等概念正在處於炒做的頂峯。而大數據已從頂峯滑落,NFC和雲計算接近谷底。git

3 將來,高科技創業的趨勢是什麼?

我先提一個最近看的一部電影《Imitation Game》,講計算機邏輯的奠定者艾倫圖靈(計算機屆最高獎以他命名)艱難的一輩子,他當年爲破譯德軍密碼製做了圖靈機爲二打敗利做出卓越貢獻,挽回幾千萬人的生命,可在那個時代由於同性戀被判化學閹割,自殺結束了短暫的42歲生命。他的一個偉大貢獻就是在人工智能的開拓工做,他提出圖靈測試(Turing Test),測試某機器是否能表現出與人等價或沒法區分的智能。咱們如今回到今天,人工智能已經有了很大進步,從專家系統到基於統計的學習,從支持向量機到神經網絡深度學習,每一步都帶領機器智能走向下一個階梯。在Google資深科學家吳軍博士(數學之美,浪潮之巔做者),他提出當前技術發展三個趨勢,第一,雲計算和和移動互聯網,這是正在進行時;第二,機器智能,如今開始發生,但對社會的影響不少人尚未意識到;第三,大數據和機器智能結合,這是將來時,必定會發生,有公司在作,但尚未太造成規模。他認爲將來機器會控制98%的人,而如今咱們就要作個選擇,怎麼成爲剩下的2%?【獨家】吳軍:將來機器將會控制98%的人李開復在2015年新年展望也提出將來五年物聯網帶來龐大創業機會。面試

4 爲何大數據和機器智能結合的將來必定會到來?

其實在工業革命以前(1820年),世界人均GDP在1800年前的兩三千年裏基本沒有變化,而從1820年到2001年的180年裏,世界人均GDP從原來的667美圓增加到6049美圓。由此足見,工業革命帶來的收入增加的確是翻天覆地的。這裏面發生了什麼,你們能夠去思考一下。但人類的進步並無中止或者說穩步增加,在發明了電力,電腦,互聯網,移動互聯網,全球年GDP增加 從萬分之5到2%,信息也是在急劇增加,根據計算,最近兩年的信息量是以前30年的總和,最近10年是遠超人類全部以前累計信息量之和。在計算機時代,有個著名的摩爾定律,就是說一樣成本每隔18個月晶體管數量會翻倍,反過來一樣數量晶體管成本會減半,這個規律已經很好的match了最近30年的發展,而且能夠衍生到不少相似的領域:存儲,功耗,帶寬,像素。而下面這個是馮諾伊曼,20世紀最重要的數學家之一,在現代計算機、博弈論和核武器等諸多領域內有傑出建樹的最偉大的科學全才之一。他提出(技術)將會逼近人類歷史上的某種本質的奇點,在那以後 所有人類行爲都不可能以咱們熟悉的面貌繼續存在。這就是著名的奇點理論。目前會愈來愈快指數性增加,美國將來學家Ray Kurzweil稱人類可以在2045年實現數字化永生,他本身也創辦奇點大學,相信隨着信息技術、無線網、生物、物理等領域的指數級增加,將在2029年實現人工智能,人的壽命也將會在將來15年獲得大幅延長。算法

5 國外值得關注的大數據公司都有哪些?國內又有哪些?

這是2014年總結的Big Data公司列表,咱們大體能夠分紅基礎架構和應用,而底層都是會用到一些通用技術,如Hadoop,Mahout,HBase,Cassandra,我在下面也會涵蓋。我能夠舉幾個例子,在分析這一塊,Cloudera,Hortonworks,MapR做爲Hadoop的三劍客,一些運維領域,MangoDB,Couchbase都是NoSQL的表明,做爲服務領域AWS和Google BigQuery劍拔弩張,在傳統數據庫,Oracle收購了MySQL,DB2老牌銀行專用,Teradata作了多年數據倉庫。上面的Apps更多,好比社交消費領域Google, Amazon, Netflix, Twitter, 商業智能:SAP,GoodData,一些在廣告媒體領域:TURN,Rocketfuel,作智能運維Sumologic等等。去年的新星 Databricks 伴隨着Spark的浪潮震撼Hadoop的生態系統。數據庫

對於迅速成長的中國市場,大公司也意味着大數據,BAT三家都是對大數據的投入也是不惜餘力,我5年前在Baidu的的時候,就提出框計算的東東,最近兩年成立了硅谷研究院,挖來Andrew Ng做爲首席科學家,研究項目就是百度大腦,在語音,圖片識別大幅提升精確度和召回率,最近還作了個無人自行車很是有趣。騰訊做爲最大的社交應用對大數據也是情有獨鍾,本身研發了C++平臺的海量存儲系統。淘寶去年雙十一主戰場,2分鐘突破10億,交易額突破571億,背後是有不少故事,當年在百度作Pyramid(按Google三輛馬車打造的金字塔三層分佈式系統)有志之士,繼續在OceanBase創造神話。而阿里雲當年備受爭議,馬雲也懷疑是否是被王堅忽悠,最後經歷了雙十一的洗禮證實了OceanBase和阿里雲的靠譜。小米的雷軍對大數據也是寄託厚望,一方面這麼多數據幾何級數增加,另外一方面存儲帶寬都是巨大成本,沒價值就真破產。編程

6 Hadoop是現今最流行的大數據技術,在它出現的當時,是什麼形成了Hadoop的流行?當時Hadoop具備哪些設計上的優點?

看Hadoop從哪裏開始的,不得不提Google的先進性,在10多年前,Google出了3篇paper論述分佈式系統的作法,分別是GFS, MapReduce, BigTable,很是NB的系統,但沒人見過,在工業界不少人癢癢的就想按其思想去仿做,當時Apache Nutch Lucene的做者Doug Cutting也是其中之一,後來他們被Yahoo收購,專門成立Team去投入作,就是Hadoop的開始和大規模發展的地方,以後隨着Yahoo的衰落,牛人去了Facebook, Google, 也有成立了Cloudera, Hortonworks等大數據公司,把Hadoop的實踐帶到各個硅谷公司。而Google尚未中止,又出了新的三輛馬車,Pregel, Caffeine, Dremel, 後來又有不少步入後塵,開始新一輪開源大戰。設計模式

爲啥Hadoop就比較適合作大數據呢?首先擴展很好,直接經過加節點就能夠把系統能力提升,它有個重要思想是移動計算而不是移動數據,由於數據的移動是很大的成本須要網絡帶寬。其次它提出的目標就是利用廉價的普通計算機(硬盤),這樣雖然可能不穩定(磁盤壞的概率),但經過系統級別上的容錯和冗餘達到高可靠性。而且很是靈活,可使用各類data,二進制,文檔型,記錄型。使用各類形式(結構化,半結構化,非結構化所謂的schemaless),在按需計算上也是個技巧。服務器

7 可否用普通人都能理解的方式解釋一下Hadoop的工做原理?

咱們先說HDFS,所謂Hadoop的分佈式文件系統,它是能真正作到高強度容錯。而且根據locality原理,對連續存儲作了優化。簡單說就是分配大的數據塊,每次連續讀整數個。若是讓你本身來設計分佈式文件系統,在某機器掛掉還能正常訪問該怎麼作?首先須要有個master做爲目錄查找(就是Namenode),那麼數據節點是做爲分割好一塊塊的,同一塊數據爲了作備份不能放到同一個機器上,不然這臺機器掛了,你備份也一樣沒辦法找到。HDFS用一種機架位感知的辦法,先把一份拷貝放入同機架上的機器,而後在拷貝一份到其餘服務器,也許是不一樣數據中心的,這樣若是某個數據點壞了,就從另外一個機架上調用,而同一個機架它們內網鏈接是很是快的,若是那個機器也壞了,只能從遠程去獲取。這是一種辦法,如今還有基於erasure code原本是用在通訊容錯領域的辦法,能夠節約空間又達到容錯的目的,你們感興趣能夠去查詢。網絡

接着說MapReduce,首先是個編程範式,它的思想是對批量處理的任務,分紅兩個階段,所謂的Map階段就是把數據生成key, value pair, 再排序,中間有一步叫shuffle,把一樣的key運輸到同一個reducer上面去,而在reducer上,由於一樣key已經確保在同一個上,就直接能夠作聚合,算出一些sum, 最後把結果輸出到HDFS上。對應開發者來講,你須要作的就是編寫Map和reduce函數,像中間的排序和shuffle網絡傳輸,容錯處理,框架已經幫你作好了。架構

8 MapReduce模型有什麼問題?

第一:須要寫不少底層的代碼不夠高效,第二:全部的事情必需要轉化成兩個操做Map/Reduce,這自己就很奇怪,也不能解決全部的狀況。

9 Spark從何而來?Spark相比於Hadoop MapReduce設計上有什麼樣的優點?

其實Spark出現就是爲了解決上面的問題。先說一些Spark的起源。發自 2010年Berkeley AMPLab,發表在hotcloud 是一個從學術界到工業界的成功典範,也吸引了頂級VC:Andreessen Horowitz的 注資. 在2013年,這些大牛(Berkeley系主任,MIT最年輕的助理教授)從Berkeley AMPLab出去成立了Databricks,引無數Hadoop大佬盡折腰,它是用函數式語言Scala編寫,Spark簡單說就是內存計算(包含迭代式計算,DAG計算,流式計算 )框架,以前MapReduce因效率低下你們常常嘲笑,而Spark的出現讓你們很清新。 Reynod 做爲Spark核心開發者, 介紹Spark性能超Hadoop百倍,算法實現僅有其1/10或1/100。在去年的Sort benchmark上,Spark用了23min跑完了100TB的排序,刷新了以前Hadoop保持的世界紀錄。

1 0若是想從事大數據方面的工做,是否能夠推薦一些有效的學習方法?有哪些推薦的書籍?

我也有一些建議,首先仍是打好基礎,Hadoop雖然是火熱,但它的基礎原理都是書本上不少年的積累,像算法導論,Unix設計哲學,數據庫原理,深刻理解計算機原理,Java設計模式,一些重量級的書能夠參考。Hadoop 最經典的the definitive guide, 我在知乎上也有分享有什麼關於 Spark 的書推薦? - 董飛的回答

其次是選擇目標,若是你像作數據科學家,我能夠推薦coursera的data science課程,通俗易懂Coursera - Specializations

學習Hive,Pig這些基本工具,若是作應用層,主要是把Hadoop的一些工做流要熟悉,包括一些基本調優,若是是想作架構,除了能搭建集羣,對各個基礎軟件服務很瞭解,還要理解計算機的瓶頸和負載管理,Linux的一些性能工具。最後仍是要多加練習,大數據自己就是靠實踐的,你能夠先按API寫書上的例子,可以先調試成功,在下面就是多積累,當遇到類似的問題能找到對應的經典模式,再進一步就是實際問題,也許周邊誰也沒遇到,你須要些靈感和網上問問題的技巧,而後根據實際狀況做出最佳選擇。

相關文章
相關標籤/搜索