整理了最近幾年看過的大數據與數據分析相關的書,找出19本,按星級和發佈時間排序。css
4星|《人人都在說謊》:社會科學方面有趣的數據分析方法與結論算法
書中做者講了社會科學方面的許多有趣的分析方法與結論。有許多常規調查方法難以獲得的數據,如今因爲技術的進步能夠獲得了。好比美國人的種族主義傾向,在媒體和調查中都不太嚴重,實際上根據谷歌趨勢能夠看出來許多州是比較嚴重的。有學者各州的種族主義傾向跟該州對特朗普的支持率正相關。編程
書中一個重要的數據來源是谷歌搜索,此外還有用於研究的報稅數據,把大部分紙書電子化的谷歌Ngrams項目,精確到小時的犯罪率,記錄夢境的APP等。微信
書中的結論涉及到選舉、教育、醫療、犯罪、同性戀等。網絡
書中兩個重要的知識點:斷點回歸,維度的詛咒。機器學習
書中一些有趣的結論:ide
1:有共同的好友圈實際上是一個強預測器,預示着一段愛情長不了;工具
2:社會經濟地位越高,意味着進入NBA的可能性就越大。學習
3:決定一我的成年後成爲哪支球隊「死忠粉」最關鍵的時間節點,是在他8歲左右的那一年;測試
4:14~24歲的美國人會依據現任總統的受歡迎度造成本身的政治觀點;
5:暴力電影放映結束以後的幾個小時內,與酒精有關的犯罪活動數量一落千丈;
6:兩位經濟學家發現對醫生的金錢獎勵對下降死亡率無顯著效果;
7:分配到條件更加嚴苛的監獄的囚犯,在離開監獄後還有可能犯下更多罪行
8:美國排名第一的史岱文森高中給學生帶來的影響有多大呢?無!沒有!零!
9:那麼,新的大數據來源可否成功預測股票的走勢呢?答案很簡單:不能。
有一個印刷方面的小問題:精裝版的書皮掉色,拿在手裏看了一下子就發現紅色的書皮有些地方磨白了,手指變紅了。
4星|《對賭:信息不足時如何作出高明決策》:賭徒機率思惟最優
做者是認知心理學博士,有一個職業撲克玩家哥哥,機緣巧合專職玩德州撲克20年。
做者在玩牌過程當中意識到,撲克比賽中的決策次數特別多特別頻繁,差很少每兩分鐘要有一次決策,可能一個決策就影響到一套房子的輸贏。因而對優秀撲克選手的決策模式作了許多思考。
書中總結了優秀撲克選手的決策思路,最重要的我認爲是兩點:
1:機率思惟:認識到世界是不可知的,只能儘可能選擇贏牌機率最大的方案;
2:正確的決策不必定致使好的結果:正確的決策可能致使輸牌,毫不能所以認爲決策就是錯誤的;
做者引用了博弈論的基本理論,認爲生活中只要有選擇就是在博弈,在賭本身的選擇是最優的,真實的生活更像撲克而不是象棋:本身接下來摸到什麼牌對手摸到什麼牌是未知的,運氣的成分很大,很天然回用結果來判斷決策的對錯(但這是不對的),賭徒的機率思惟在生活中是最優選擇。
書中還給出跟機率思惟相反的常見思惟誤區:動機性推理、自利性誤差、偏見盲點、確認性思惟、時間貼現、過後偏見等。
做者也給出了讓大腦逐步跳出思惟誤區適應機率思惟的一些方法,好比參加求真小組,小組內討論問題嚴格區分情緒、決策、結果,重點討論決策過程是否是最優而不關注情緒和結果。
做者本身兒子考試成績很差,老是習慣性地怪罪老師很差,做者用這個例子說明這種失敗了怪別人的思惟誤區是人類天性,認識到這一點才能更好地幫助他人。
上面我說的機率思惟,書中大部分時候叫作「對賭思惟」,個別地方叫機率思惟。書中頻繁出現「對賭」這個詞,根據上下文來看,基本肯定就是英文「bet」也就是賭博。
做者是財報分析專家。書中做者分析了14家A股上市公司外加華爲的財報,用財報數聽說話,看哪家公司是高科技公司,哪家公司更重視營銷/研發,看這些公司的主營業務究竟是什麼,利潤率如何。
從財報看公司,跟這些公司的公關稿很是不一樣。能夠說用財報解了公關稿的毒。
這15家公司中比較知名的有:樂視、華誼兄弟、東阿阿膠、中興通信、中國平安、小米、暴風集團、華大基因、華爲等。
做者重要的結論有:
1:樂視和暴風影音的利潤操控手法堪稱經典;
2:華誼兄弟長於投資弱於經營;
3:中興通信賺錢的難度和壓力要遠遠超出人們的想象;
4:小米集團是一家以中國本土市場爲主、正在國際市場上迅速崛起的智能手機制造商;
5:華大基因研發投入與研發人員數量增加之間的矛盾性背離,隱含公司相關數據恐涉舞弊之嫌;
6:華爲已經躋身高科技企業俱樂部,但只是剛剛及格。
書中的文章應該都在做者公衆號上發表過。許多內容是偏枯燥的數據與圖表,不過度析的過程和結論仍是比較有意思。
做者有多年社羣工做經驗。書中引用了許多未公開的移動互聯網產品的數據和分析結果,也有做者本身的數據與分析。很是有價值。
做者的思想我總結以下:移動互聯網時代,很大一部分流量已經轉移到各個社羣中了,於是變得無比分散;社羣中的用戶喜歡比較、進階與升級;社羣中的意見領袖很是重要。
書中有彩圖,彩圖在kindle閱讀器上看不太明白,須要在電腦或平板上看。
全書基本是大數據與人工智能的科普,講大數據與人工智能的基本原理與有趣的應用。個人評價是4星,做者曾經戰鬥在這個行業的第一線,對行業的瞭解在廣度和深度兩個維度都不錯。
4星|《中國的人口與城市》:關於中國人口與中國城市的數據分析
本書是做者在知乎的文章的自選集。書中分紅兩部分,前半部分講中國的人口的一些數據分析。後半部分是關於中國的城市的一些數據分析。比較有意思。全書比較短。亞馬遜上的預估值是84頁,1-2個小時就能看完。
做者是高校教師,經濟學研究者。
4星|《智慧社會:大數據與社會物理學》:研究人類的想法的流動擴散的規律
做者是麻省理工的學者,研究的社會物理學,主要的關注點是想法流(idea flow)的傳播的規律。
看完後基本的感受是社會物理學的內容比較有新意,另外這是嚴肅的社會學研究而不是拍腦殼空想。可是全書的缺陷社會物理學做爲一門科學,書中提出來的規律、定理太少了。社會物理學的實際應用,也相對偏少,還處在個案階段。
4星|《顛覆醫療:大數據時代的我的健康革命》:醫療前沿成果介紹,用極小篇幅描繪大數據對醫療可能的顛覆
本書大部分篇幅在介紹與大數據有關或者沾邊的醫療方面的信息:須要使用大樣本作測試的臨牀試驗的困難,基因測序,針對特定基因起效的藥物(於是也能夠看做個性化的藥物),等等。做者是專業的醫學工做者,內容至關專業。
比較小的篇幅談到了目前的IT應用給醫學帶來的變革:便攜式、穿戴式醫療設備,社交網絡等。
極小的篇幅憧憬了可能出現的大數據對醫療的顛覆:在家遠程就醫,對大腦活動的檢測與控制,數字烏托邦,數字人,等等。
我的認爲值得有醫學基礎的讀者看看。不然的話看起來比較枯燥。
內容是講一個棒球窮隊奧克蘭運動家隊,面對不利形勢,違反常規和直覺,大膽採用數據分析方法來挑選球員,而不是沿用業內通用的球探選球員的方法。實踐證實他們做對了。他們用便宜的價格選來的球員表現很好,這些球員來運動家隊以後很快身價大漲,總經理比利再把他們買給其餘隊,換來挑選新球員的資格。
做者一如既往的會講故事,可是我對棒球的比賽規則、選拔隊員規則、聯盟晉級規則徹底不熟悉,也不感興趣,我卻是但願做者能多一些歸納少一些故事。
英文版是2004年出版的。2012年有過一箇中譯本《點球成金》。這本是另一家出版社的另一箇中譯本。書中的故事與信息到2003年就結束了,很是想知道後來的狀況,本書在前言後記中幾乎沒提,這個讓我很是失望。
書後的《出版後記》中提到,這本書出版後很快成爲體育界和管理界經典,超級暢銷書《信號與噪聲》《超預測》都引用了書中的故事。我確實在不少地方看到了對本書內容的引用,覺得看本書能看到更多有趣又深度的內容,不過讀後比較失望,對棒球比賽不感興趣的話,讀對本書的歸納故事就夠了。
做者在華爾街對衝基金德紹集團擔任過金融工程師,後來去銀行作過風險分析,再後來去作旅遊網站的用戶分析。後來辭職專門揭露美國社會生活背後的各類算法的陰暗面。
書中提到的算法的技術缺陷,我概括爲兩點:第一個比較致命:不許確。不許確有兩種體現,首先是算法先天的問題,好比教師評估算法,針對大規模的學生來評估教學質量是可行的,可是具體到一個教師,每一年只教30個學生,若是這30個學生中有一兩個極好或極差的,會致使對教師的評估出現很大的波動。
算法不許確的第二種狀況是得不到反饋所以無法逐步優化,做者舉一些美國公司採用的招聘評估軟件爲例,及可能把一些不合格的員工派出在外了,可是僱主不關心,算法得不到反饋所以得不到改進的機會。
另一大缺陷是不公開致使有效益但不公平。仍是以招聘時候的評估算法爲例,會把一些人拒絕,拒絕的緣由有多是跟罪犯同名之類的錯誤,更有多是由於應聘者的種族、居住地等信息。
書中提到算法在加劇美國的貧富分化。除了招聘評估算法外,預計犯罪地點的算法,實際只能預測輕度犯罪,這一類犯罪在貧民區更多,反過來會強化警察在貧民區的巡查,在貧民區抓獲更多輕度犯罪者投入監獄。
美國的營利性大學(按書中描述跟國內的莆田繫有一拼),靠算法幫助,把營銷目標集中的窮人身上,讓他們花相對高數倍的學費,獲得的文憑在人才市場上跟高中文憑價值接近。
做者提出的改善措施是:自律、監管、公開。算法工程師要像醫生同樣自律,政府須要監管算法的邏輯,算法的邏輯和計算結果須要公開。
3星|《數據資本時代》:數據會致使資本貶值,缺數據和實例證實
《大數據時代》做者的新書。基本的思想是說:價格的一個重要做用是傳遞市場中的信息,大數據會致使信息傳遞更方便,於是致使資本貶值。
這個思想比較有趣,不過邏輯上沒能說服我,做者也沒能拿出實例與數據來證實,所以我認爲這個想法還處於猜測、暢想階段。
書寫到一大半的時候才提出主題思想。前面是各類AI應用的介紹與暢想。
此外做者還提議:對大公司收取數據稅,就是把一部分數據向政府開放來換取必定額度的免稅;企業僱用人類員工能夠抵免稅收,以此拉動就業,並激勵企業研發更有價值的人工智能。
3星|塗子沛《數文明》:書名太誇張,實際是安防監控方面的AI應用
主要內容是中美兩國安防與監控領域的人工智能應用案例彙編。做者嘗試創造一套本身的理論來解釋當前人工智能給社會帶來的變化,造了一些名詞好比「量數」、「據數」、「數聯網」、「數體」。不過書中做者本身使用這些理論與名詞也不多。我認爲做者的理論比較失敗。
書中案例除個別做者我的親歷或來自朋友的信息外,都是公開可見的。
做者嘗試旁徵博引,引用了很多跟主題相關的故事。跟真正的旁徵博引的學者比起來,功力還有欠缺。
做者自述在公安系統幹過8年,在阿里作太高管。書中內容看不出在公安作過的具體工做,也沒提在阿里作過的工做或項目。
全書由許多小章節組成,每一小章節是一篇相對獨立的短文,講一種數據形成的誤解/誤導,和讀者的反誤解/反誤導方法。好比說看數據的話美國的副市長的平均工資高於市長的平均工資,細究的話實際是許多小鎮沒有副市長,只有一個低薪的市長,有副市長的都是相對較大的市鎮。
這些內容還都比較有意思,也有實用價值。沒看過相似資料的讀者能夠看看。對我來講大部分信息與觀點都見過了。
4篇文章的合集,文章發表時間沒寫,看內容好像是前兩三年的。內容還有點參考價值。
做者在書中給出了一些財務分析的原則,又具體分析了15家國內公司的財報。做者不看好科大訊飛。
做者對企業財報分析的幾個重要觀點:
1:利潤沒有經營活動淨現金支持的話,多是紙面富貴;
2:一家公司負債的比重越大,就意味着它使用了越多便宜的資本;
3:本身掙出來的銷售與購併買來的銷售,其含金量自是不一樣;
做者的財務分析功力很強,不作全書內容更適合放到網絡上供讀者檢索而不是集結成冊。
3星|《數據思惟:從數據分析到商業價值》:有趣的數據分析案例
全書是公衆號「狗熊會」的文章的精選,文章都還比較下功夫,可是集結起來看不夠全面系統,有的還略顯重複。
書中有一些圖表的使用技巧,簡單介紹了迴歸分析和機器學習,還有一部分是中文文本分析的案例。
全部的案例都沒提到具體的實現細節,有些是用excel或R畫圖能夠實現的,有些則須要編程處理。
案例比較有意思。
書的裝幀不錯,圖是彩色的看起來比較舒服。數據圖表的排版與樣式花了些功夫,雖然比不上經濟學人的圖表,還算能夠。
3星|《互聯網+:從IT到DT》:阿里公關稿,數據與案例不夠全面客觀,電商部分有一些生動的例子
本書是阿里研究院的集體創做,固然要從阿里的視角寫,所以其餘的互聯網巨頭的信息不多涉及,對阿里不利的案例不多涉及。
關於「互聯網+」,關於「互聯網+」跟互聯網的區別,書的開頭有一點介紹。我感受整體來講直接把書中的「互聯網+」批量替換成「互聯網」,全書的思想基本不會有變化。
書名中的DT指「數據技術」。
書中比較生動有趣的是前半部分,講電子商務,舉了一些依託阿里的成功案例。這部分的缺陷是用個案說理,只舉很是好的案例,剩下的海量的阿里商戶的狀況如何徹底不提,不夠全面客觀。
後面講互聯網+在其餘領域(如醫療、旅遊、教育、金融等)的前景,則基本是一些展望,阿里沒有特別成功的案例。阿里健康的前景要依賴政府的醫保政策,若是政策容許憑醫院處方到藥店買藥,則阿里健康可能會有比較大的發展。
阿里媽媽的「時光可逆」功能比較有意思。多是把tealeaf之類的網站用戶跟蹤工具的功能作到了阿里的系統中。
2星|《讀懂你的客戶:基於大數據的消費者戰略》:資料引用與堆砌,缺少本身的看法
全書整體是相關資料(書和論文)的引用與堆砌,缺少本身的看法,能夠做爲參考資料閱讀。
1星|《數據的本質:無人不是分析師》:內容太虛,推測做者在阿里遠離一線,沒作成過拿得出手的產品與業績
內容太虛太水,跟阿里的一些實戰派寫的書一比就知道了,好比跟今年上半年出的《盡在雙11》。全書基本看不到阿里的數據與業務的實際經驗。基本是做者把已知的信息轉述出來,或者是說做者跟哪位大咖比較熟,還聊過天。
書中做者三次提到他阿里領導的「聚划算無人車」項目,還提到過一個「黃金策」項目,搜了一下都是知名度比較小的項目,可能都已經停用了。這兩個項目做者也徹底沒提任何的技術上的細節,推測做者多是個掛名的領導。
全文完
更多毒舌書評參見個人公衆號:左其盛經管新書點評
微信掃一掃關注該公衆號