輿情,文本挖掘

時間 2019-11-11

標籤輿情文本挖掘欄目大數據简体版

原文原文鏈接

MLE，MAP，EM 和 point estimation 之間的關係是怎樣的html

和點估計相對應的是區間估計，這個通常入門的統計教材裏都會講。直觀說，點估計通常就是要找機率密度曲線上值最大的那個點，區間估計則要尋找該曲線上知足某種條件的一個曲線段。java

最大似然和最大後驗是最經常使用的兩種點估計方法。以最簡單的扔硬幣遊戲爲例，一枚硬幣扔了五次，有一次是正面。用最大似然估計，就是以這五次結果爲依據，判斷這枚硬幣每次落地時正面朝上的機率（指望值）是多少時，最有可能獲得四次反面一次正面的結果。不難計算獲得指望機率0.2。node

用五次試驗結果來估計硬幣落地時正面朝上的機率顯然不夠可靠。這時候先驗知識能夠發揮一些做用。若是你的先驗知識告訴你，這枚硬幣是制幣局製造，而制幣局流出的硬幣正面朝上的機率通常是0.5，這時候就須要在先驗機率0.5和最大似然估計0.2之間取個折中值，這個折中值稱爲後驗機率。這時候剩下的問題就是先驗知識和最大似然估計結果各應起多大做用了。若是你對制幣局的工藝很是有信心，以爲先驗知識的可靠程度最起碼至關於作過一千次虛擬試驗，那麼後驗機率是(0.2 * 5 + 0.5 * 1000)/(5 + 1000) = 0.4985，若是你對制幣局技術信心不足，以爲先驗知識的可靠程度也就至關於作過五次試驗，那麼後驗機率是(0.2 * 5 + 0.5 * 5)/(5 + 5) = 0.35. 這種在先驗機率和最大似然結果之間作折中的方法稱爲後驗估計方法。這是用貝耶斯觀點對最大後驗方法的闡述，其實也能夠用用經典統計學派的誤差方差的折中來解釋。python

EM方法是在有缺失值時進行估計的一種方法，這是一個迭代方法，每一個迭代有求指望(E)和最大化(M)兩個步驟。其中M能夠是MLE或者MAP。通常須要先爲缺失值賦值（E步驟初始化），而後重複下面的步驟：mysql

1）用MLE或MAP構造模型(M步驟)；c++

2）用所得模型估計缺失值，爲缺失值從新賦值(E步驟)；git

仍然以扔硬幣爲例，假設投了五次硬幣，記錄到結果中有兩正一反，還有兩次的數據沒有記錄下來，不妨本身用上述步驟演算一下硬幣正面朝上的機率。須要注意，爲缺失值賦值能夠有兩種策略，一種是按某種機率賦隨機值，採用這種方法獲得所謂hard EM，另外一種用機率的指望值來爲缺失變量賦值，這是一般所謂的EM。另外，上例中，爲兩個缺失記錄賦隨機值，以指望爲0.8的0-1分佈爲他們賦值，仍是以指望爲0.2的0-1分佈爲他們賦值，獲得的結果會不一樣。而賦值方法的這種差異，實際上體現了不一樣的先驗信息。因此即使在M步驟中採用MLE，EM方法也融入了很是多的先驗信息。github

上面的例子中只有一個隨機變量，而LDA中則有多個隨機變量，考慮的是某些隨機變量徹底沒有觀測值的狀況（也就是Latent變量），因爲模型很是複雜，LDA最初提出時採用了變分方法獲得一個簡單的模型，EM被應用在簡化後的模型上。從學習角度說，以PLSA爲例來理解EM會更容易一點。另外，kmeans聚類方法其實是典型的hard EM，而soft kmeans則是一般的EM，這個在[1]中的討論最直觀易懂。web

[1] Information Theory, Inference, and Learning Algorithms, http://www.http://inference.phy.cam.ac.uk/mackay/itila/算法

辛苦了，EM 針對有缺失值這個狀況的確是關鍵。

我一直記得 EM 是實現 MLE 的（當年教這個的老闆就是搞這個的，特強調這個，因此真得死也忘不了）。看了你說的，去查了查，原來 EM 改改後也能做 MAP。

soft kmeans 是否是就是或相似 fuzzy c-means？

k-means 很爛，主要是不夠穩定，對初始值太敏感。但這方法做 E-M 的例子真很好。若是再往前追溯的話，還有一個模數信號量化轉換的 Lloyd–Max quantization 算法，也是很經典，比 E-M 還有歷史。

David Mackay 的書很贊。同推薦。

不作進一步假設，認爲這個機率分佈（若是是實數域上的數據）能夠是正態分佈，能夠是學生t-分佈，能夠是拉普拉斯分佈，能夠是各類其餘各類分佈，甚至還能夠是把以上分佈用另外一個隨機變量混合起來的。在這種狀況下，她要作的就是非參數統計。這個和題目中提到的四個名詞關係都不大，暫且按下不表。

假設造成數據的機率分佈是某一族分佈中的一個。每一族機率分佈均可能有無數個。這時她要問本身的問題是：咱們面前的這個機率分佈的參數是多少。好比說她假設數據是由某種正態分佈造成的，就要對這個分佈的指望和方差作一個估值（estimation），也就是推論（inference）。這裏就能夠提到題主問題中的 point estimation 這個詞了，MLE，MAP和EM都是對模型估值的方式或者方法。實際上，在對模型的參數作出估計之後，買算法的小女孩們還能夠問本身另外一個問題：眼前的數據確實被這個推論得知的機率分佈造成的機率是多少。這時就要用到假設檢驗，並以此獲得參數的置信區間（confidence interval），point estimation 中的「點」就是和置信區間中的「區間」相對的。

如今小女孩決定了要使用的分佈族羣，她仍是不知道怎麼估計參數的值。其實這裏有三種可能的情況：

小女孩選擇的模型很簡單，數據量也很大，給定一組參數之後，數據的似然函數（likelihood function）能夠很明白的寫出來（tractable）。這時候，一個很明顯也很天然的選擇就是使用最有可能生成了數據的參數值，也就是說，選擇讓似然函數最大化的參數值，也即 maximum likelihood estimation。若是似然函數能夠直接在理論上求最大值固然好，算不出最大化的表達式，能夠靠數值運算最大化也能夠。由於數據量很大，模型簡單（甚至足夠規則），MLE 是一個不錯的選擇。

小女孩選擇的模型很複雜。似然函數雖然貌似能夠寫出來，可是要給指數級的項目求和，或者似然函數根本寫不出來。這樣的模型就不能簡單最大化似然了之了。這時候，買算法的小女孩們或者老闆忽然發現，雖然不能直接寫出模型的似然函數，要是給模型加上幾個隱變量，那麼給定參數下，數據與隱變量的聯合分佈卻是很容易算，要是知道隱變量的值，針對參數最大化似然函數也很容易。惟一的問題是，他們既不知道隱變量的值，也不知道參數的值。這時就能夠用到 EM 算法了，這個兩步的算法很好地解決了這個兩不知的問題，也即：第一步，給定參數，對隱變量作指望，算出包括隱變量的似然函數；第二步，對這個似然函數最大化，update 參數。由於這個模型可讓似然函數遞增，若是似然函數是凹函數，那就必定會收斂到最大值，若是似然函數有多個極值，則要隨機化初始參數值，算不少次，選擇似然最大的參數。

小女孩的模型未必很複雜，可是數據很是少，與此同時，小女孩或者老闆已經關注這個問題好久，對參數有必定的想法了。這時候就能夠用到貝葉斯統計了：咱們能夠給參數定一個先驗統計分佈，而後用數據算出參數的後驗分佈（posterior probability，其實大概就是把先驗的機率密度和數據的似然函數乘一乘，而後再標準化一下的問題），而後再最大化後驗，這個最大化後驗分佈的參數值就是 maximum a posteriori 了。其實在貝葉斯統計中，最大化後驗機率的參數值未必是最好的參數值，根據決策論的見解，通常會最小化某個 loss function，獲得的結果多是後驗分佈的指望或者中值。不過若是參數的空間是非凸的（好比離散集合），這兩個值未必在參數空間內，說不定也很很差算，因此在實際應用中，用 MAP 的也很多。

如今正在學習使用EM算法處理數據，你的答案很便於我這種初入門理解~

而後我想請問一下，若是我想計算由EM算法得到的（機率密度函數的）參數的置信區間，請問我能夠實現麼？

假如我有一組數據，假設他的分佈是一個mixture weibull distribution, 使用EM算法重複計算以後，我肯定了他的多個參數。如今如何我須要計算這些參數，或者這整個參數組合（由於是聯合分佈）的參數偏差/置信區間（e.g. 95%），請問我如何實現？

『不過若是參數的空間是離散的，這兩個值未必在參數空間內，說不定也很很差算，因此在實際應用中，用 MAP 的也很多』，是否是矛盾了啊？

這是兩種不一樣的狀況嘛……兩種均可以用map來解決這個問題。

『根據決策論的見解，通常會最小化某個 loss function，獲得的結果多是後驗分佈的指望或者中值』，還有『算指望、求中位值和求最大值這三件事那件最容易，真不是輕易能說清楚的，說不定沒一個好用的』這兩個結論已經超出我理解的範圍了......這是貝葉斯統計的一個研究方向嗎？（我只有基礎的機器學習和機率論知識）

loss function是根據decision theory的原則來取得符合必定最優性質的estimator，不一樣的loss function會獲得不一樣的理論上estimator。可是要真的把它們算出來，常常要優化一個不能explicitly寫出來的機率密度，或者對它算指望，因此就要用到各類蒙特卡洛模擬了。不少貝葉斯統計的研究都是圍繞這些問題展開的。想要進一步瞭解能夠試着讀一兩本教科書。我看的是Christian Robert寫的Bayesian Choice。可是其實我也不是作貝葉斯的，只是上過Robert老師的蒙特卡洛課……

固然MAP這種東西在機器學習（graphical models）裏也有用到，不少機器學習的算法也是經過決策論來提出estimator的

point estimation 是某類問題的通稱，指用數據估計某參數常量；

剩下三個都是估計方法。

MLE 是先驗估計，找到由對像參數決定的數據分佈，參數值就是依該分佈觀測數據出現機率最大的那個。

其中 EM 是一種實現 MLE 的具體方法，好處是總能收斂。

MAP 是後驗估計，好比假設由對像參數決定的數據分佈自己不徹底由數據決定，還有先驗知識的成份，一般表現爲由經驗來的對各類數據分佈自己的信任程度。計算更復雜些。

不少書都講，不知道你具體背景如何。能夠看 signal estimation 這樣的書。Steven Kay 的那本很容易懂的。

point estimation 是某類問題的通稱，指用數據估計某參數常量；

剩下三個都是估計方法。

MLE 是先驗估計，找到由對像參數決定的數據分佈，參數值就是依該分佈觀測數據出現機率最大的那個。

其中 EM 是一種實現 MLE 的具體方法，好處是總能收斂。

不少書都講，不知道你具體背景如何。能夠看 signal estimation 這樣的書。Steven Kay 的那本很容易懂的。

通常是用詞袋模型+隱含主題模型來完成。

在短文本的主題模型有一些研究工做，我沒有全面作過調研，本身瞭解的包括：

1. KDD 2014上來自Twitter團隊的Large-Scale High-Precision Topic Modeling on Twitter，對Twitter數據上進行主題模型建模作了大量定製化工做。

2. WWW 2008上的Learning to classify short and sparse text & web with hidden topics from large-scale data collections，專門研究如何用主題模型幫助解決短文本類分類的稀疏性問題。

3. ECIR 2011上的Comparing twitter and traditional media using topic models提出TwitterLDA，假設每條短文本只屬於一個隱含主題，屬於專門針對短文本隱含主題建模所作的合理性假設。

我是某計算機小菜一枚，我打算對微博數據先用word2vector 處理，而後再作情感多標籤分類..不知您有什麼見解.. 能否作爲論文出發點

嘗試word2vec，不知道有沒有人將word2vec用於短文本處理上。

數據降維，通常說的是維數約簡（Dimensionality reduction）。它的思路是：將原始高維特徵空間裏的點向一個低維空間投影，新的空間維度低於原特徵空間，因此維數減小了。在這個過程當中，特徵發生了根本性的變化，原始的特徵消失了（雖然新的特徵也保持了原特徵的一些性質）。

而特徵選擇，是從 n 個特徵中選擇 d (d<n) 個出來，而其它的 n-d 個特徵捨棄。因此，新的特徵只是原來特徵的一個子集。沒有被捨棄的 d 個特徵沒有發生任何變化。這是兩者的主要區別。

特徵選擇，是在給定一組特徵（也即肯定了座標）後，從中選取一個特徵子集，所以至關於把一些座標去除的過程。在大部分狀況下特徵選擇都是在冗餘變量較多的狀況下使用，此時至關於座標爲斜座標，甚至還存在冗餘座標（即用p個特徵表達了k (k<p)維空間），所以刪除冗餘座標並不會顯著降維。另外一方面，若原來的特徵自己就是正交座標系，那麼刪除多少特徵就降了多少維，此時與降維相似，只是這種降維方式限定了只經過刪除某幾個座標軸來實現。

降維，若是特指PCA這種線性降維方法，則降維所得的子空間是在原始座標系旋轉下不變的。而若是座標系剛好選取爲主向量，則PCA實際上等價於對這組特殊的座標系進行特徵選擇，方式是根據樣本在座標軸上分散的程度來決定該座標軸的去留。而在通常情形下，PCA降維所得的子空間是由幾乎全部原始特徵張成的，所以原始特徵所有起做用。

所以，有學者（Zou & Hastie)提出了sparse PCA，旨在強迫使用部分原始特徵張成儘可能「優質」的子空間，同時實現了降維+特徵選擇，從而能在分析主成分的同時還能夠加入模型的解釋性。

若是涉及到非線性降維，如流形學習等方法，則與特徵選擇區別甚大，此時不只有降維，還帶有座標軸的非線性扭轉伸縮等操做。特徵選擇在更多情形下，還只是限於線性的範疇（此處的線性指對參數的線性）。

在我看來，特徵選取與特徵降維最大的不一樣是特徵選取不對原始的特徵進行變換，而是直接選擇少數幾個。記得，不作變換，只是選擇。而降維通常都是作了變換，產生少數幾個特徵的，甚至有時作變換時會拿以前全部的特徵來作。因此，作不作變換是他們二者本質的區別，但願有所幫助。

結論：Feature extraction和feature selection 都同屬於Dimension reduction。要想搞清楚問題當中兩者的區別，就首先得知道Dimension reduction是包含了feature selection這種內在聯繫，再在這種框架下去理解各類算法和方法之間的區別。

和feature selection不一樣之處在於feature extraction是在原有特徵基礎之上去創造凝練出一些新的特徵出來，可是feature selection則只是在原有特徵上進行篩選。Feature extraction有多種方法，包括PCA,LDA,LSA等等，相關算法則更多，pLSA,LDA,ICA,FA,UV-Decomposition,LFM,SVD等等。這裏面有一個共同的算法，那就是鼎鼎大名的SVD。

SVD本質上是一種數學的方法，它並非一種什麼機器學習算法，可是它在機器學習領域裏有很是普遍的應用。

PCA的目標是在新的低維空間上有最大的方差，也就是原始數據在主成分上的投影要有最大的方差。這個是方差的解釋法，而這正好對應着特徵值最大的那些主成分。

有人說，PCA本質上是去中心化的SVD，這能夠看出PCA內在上與SVD的聯繫。PCA的獲得是先將原始數據X的每個樣本，都減去全部樣本的平均值，而後再用每一維的標準差進行歸一化。假如原始矩陣X的每一行對應着每個樣本，列對應着相應的特徵，那麼上述去中心化的步驟對應着先全部行求平均值，獲得的是一個向量，而後再將每一行減去這個向量，接着，針對每一列求標準差，而後再把每一列的數據除以這個標準差。這樣獲得的即是去中心化的矩陣了。

我在整理相關文檔的時候，有以下體會：

咱們的學習是什麼，學習的本質是什麼？其實在我看來就是一種特徵抽取的過程，在學習一門新知識的時候，這裏一個知識點，那兒一個知識點，你頭腦裏一篇混亂，徹底不知所云，這些知識點在你的大腦中也純粹是雜亂無章毫無頭緒的，這不正是高維空間裏數據的特徵麼？最本質的數據徹底湮沒在太多太多的擾動中，而咱們要作的就是提煉，從一堆毫無頭緒的擾動中尋找到最本質的真理。

通過一段時間的摸索，你上升到了一個臺階，從這個臺階上去看原來所學到的知識點，你忽然之間豁然開朗，原來TMD這些概念，這些知識點都TM是想通的。爲何你原來卻從這些知識點中看不到任何聯繫呢?緣由就在於你以前的維度過高，而你永遠只能在這個雜亂無章的高維空間裏窺探到真理的一些細枝末葉，原本在低維空間裏相互聯繫的事物，因爲你看到的是這些事物在各個方向各個領域裏的一部分投影，你所學到的只是這些投影，那你如何僅僅依靠這些少許的投影以管窺豹呢？不可能的，因此你的知識只能是雜亂無章，毫無頭緒的。可是，一旦你所擁有的投影愈來愈多，你所學到的知識點愈來愈多，你就逐漸擁有了依靠投影獲取全貌的能力，這個時候你會發現，哇，原來過去的那些都是想通的。這就是高維空間裏雜亂無章的知識點，通過降維後，迴歸到了最本質特徵的全過程。

從今之後，你能夠只拿着這個低維空間裏的真理，摒棄掉之前學習到的任何細枝末葉的東西，而後在任何須要的時候，通過這個降維的逆算法去還原到你所學到的知識點。

那麼，人與人之間的區別在哪裏呢？那就是，對任何一個新領域的知識點創建一套降維工具的能力。

反觀SVD，PCA，LSA等等，它們作的不正是這些麼？好比在文本分類領域，最初始的數據是將文檔表示成向量空間模型的一個矩陣，而這個矩陣所擁有的就是不一樣的詞，這裏一個詞，那裏一個詞，對於咱們人類來講，咱們都已經擁有將不一樣詞在低維空間上總結概括的能力，知道這些詞的聯繫和區別，可是對於計算機來講，它們怎麼知道這些的聯繫呢？也就是它們根本還不擁有這些降維的能力，那麼就要依靠咱們人類告訴它們這個方法，這個工具就是SVD，其核心思想就是：將這些不一樣的詞都映射到低維空間中去，在低維空間中去總結，去發現這些詞的內在聯繫，一旦這些內在聯繫創建了，那麼咱們就知道了這些文檔的內在聯繫了。這不正是高維空間裏雜亂無章的數據通過降維工具以後獲取到最本質的特徵麼。這正是特徵抽取所要作的事情。

最後總結之：

1. 特徵提取是從雜亂無章的世界中，去到更高層的世界去俯瞰原始世界，你會發現不少雜亂無章的物理現象中背後暗含的道理是想通的，這時候你想用一個更加普世的觀點和理論去解釋原先的理論，這個是特徵提取要作的事情。

2. 而你仍呆在原始世界中，只是想對現有的「取其精華，去其糟粕」，這個是所謂特徵選擇。只是對現有進行篩選。

3. 特徵提取和特徵選擇統稱爲降維。（Dimension Reduction）

dimension reduction有兩種方法一種是feature selection

，就像Ling Yu說的，只進行選擇並不改變feature的值；另外一種是feature extraction，會經過對feature變換進行降維，但不必定是線性的，也不必定是保留最大信息量，這取決於你用什麼算法降維以及降維後要作什麼

把這些算法應用到圖像處理，如人臉識別，針對某個算法的一維算法相較於該算法的二維算法，這二者之間的區別又具體是什麼呢？除了說「是一維算法是把圖像矩陣拉伸爲一個向量，二維是直接對圖像矩陣進行處理

好比說，對於lpp和2dlpp,我怎麼感受二維的lpp最後在求解特徵向量矩陣時的矩陣維數比一維的矩陣維數要小的多，通常編程實現時，lpp在求解時還要對矩陣進行分解，才能比較容易的算出，二維是否是直接調用求解函數就好了？

仍是有差別的我的認爲題主有這樣的疑問主要是認爲它們均可以認爲是一個降維的過程？

通常來說數據降維是合理的信息丟失的範圍裏面將原來的高維數據映射到一個低維空間裏面這樣能夠下降模型的複雜度和計算的複雜度減小過擬合和增長泛化的能力

特徵選擇在某種意義下也是一種降維的計算可是在這種意義下須要人爲的去理解降維後的特徵表示的意義

數據降維後不必定就直接按照降維後的維度做爲特徵的維度（也許只是先作了一個數據間去相關之類的操做）在訓練模型前還要對於這些處理以後的數據進行特徵選擇的。

談到其它領域的就開始了，他們發表了大量本身對能量、對生命、對智能的思考。固然是混在他人已發表的思想中，我不知道有多少是他們原創。我認爲，複雜系統理論發展依賴於：1.數學帶來的理論推動；2.實驗帶來的理論驗證。若是你提出的思考即沒法數學化，又沒法獲得來源於某一個系統（能夠是生物種羣，膠體化學，顆粒物理，互聯網分析……）的實驗支持，說句不客氣的，基本和民科沒什麼兩樣。

對於一個還沒有進入某個領域，僅僅對「複雜系統」感興趣的新手，真正切實的機器學習討論看不懂，「看懂」的都是這些哲學思考，我以爲很危險。

我也對這方面很感興趣，以前看過樓上各位推薦的的大部分中文科普書，仍覺不知足。

後來發現一個超棒的在線課程：Complexity Explorer 。負責方是複雜系統領域裏的牛Santa_Fe_Institute 。

最近的開課日是在9月30號。

(但願你看到這個回答的時候並無錯過註冊:)

查到的教學大綱以下：

What is Complexity?

Dynamics and Chaos

Fractals

Information, Order, and Randomness

Genetic Algorithms

Cellular Automata

Complexity Economics: Two Interviews

Models of Self-Organization

Biological Scaling

Urban Scaling: An Interview with Luis Bettencourt

Networks

Virtual Field Trip

Final Exam

P.S: 金晨羽姐姐說得沒錯，正統的東西仍是要老老實實學。不過選擇學術的話試錯成本太大，題主不妨先嚐試着參加網課看看本身究竟是不是真的熱愛&Hold住，以後再選擇投身學術什麼的吧~

P.P.S:關於網課的學習，能夠參閱聽不懂美國大學公開課如何應對？有很是讚的分享~

其實用下面一個公開課「Mathematics for Complex Systems」來測試比較好呢……

這門課算入門，難不起來。能夠繼續跟進看看，有好多課呢~

金晨羽姐姐以前說 Mathematics for Complex Systems 更適合題主的問題，能夠試試今夏選這門課~

感受其實拼的仍是數理（攤手

香港城市大學的陳關榮教授（Prof. Guanrong CHEN）是該領域的資深專家。他專門爲其主講的一門課（EE6605 Complex Networks: Modeling, Dynamics and Control）整理了不少材料，連接爲： http://www.ee.cityu.edu.hk/~gchen/ComplexNetworks.htm

其內容十分豐富，包括：

（1）各類工具包和數據，Software/Databases：

http://www.ee.cityu.edu.hk/~gchen/ComplexNetworks/SoftwareDatabases.htm

（2）一些知名院校所開設的相關課程，University Courses：

http://www.ee.cityu.edu.hk/~gchen/ComplexNetworks/Courses.htm

（3）一些重要會議，Conferences：

http://www.ee.cityu.edu.hk/~gchen/ComplexNetworks/Conferences.htm

（4）重要研究者的我的主頁，Personal Websites：

http://www.ee.cityu.edu.hk/~gchen/ComplexNetworks/PersonalWebsites.htm

（5）重要的實驗室和研究中心等，Centers：

http://www.ee.cityu.edu.hk/~gchen/ComplexNetworks/Centers.htm

（6）推薦書目，Books：

http://www.ee.cityu.edu.hk/~gchen/ComplexNetworks/Books.htm

利益相關：本學期選修了該課程，今天開課。雖不在該領域摸爬滾打，但一爲興趣，二爲感覺大師風采。

從利用複雜系統理論創建數學模型的角度來講，我推薦這本書：

Sterman, J. (2000). Business Dynamics: Systems Thinking and Modeling for a Complex World. McGraw-Hill/Irwin.

做者是 MIT Sloan 商學院教授，是 System Dynamics 領域的大牛。

惋惜的是這本書寫於 Big Data 流行起來以前，比較之下只算是利用了「Small Data」。

（網上能找到電子版。）

最近剛讀到一本書Think Complexity，做者把該書的Latex源碼都貢獻出來了。不少例子都是基於很經典的模型，而後用Python編程來模擬。引用特別多，值得參考。

最後該書附錄有一個Reading List :

• Axelrod, Complexity of Cooperation.

• Axelrod, The Evolution of Cooperation.

• Bak, How Nature Works.126

• Barabasi, Linked.

• Buchanan, Nexus.

• Epstein and Axtell, Growing Artificial Societies: Social Science from the Bottom Up.

• Fisher, The Perfect Swarm.

• Flake, The Computational Beauty of Nature.

• Goodwin, How the Leopard Changed Its Spots.

• Holland, Hidden Order.

• Johnson, Emergence.

• Kelly, Out of Control.

• Kluger, Simplexity.

• Levy, Artificial Life.

• Lewin, Complexity: Life at the Edge of Chaos.

• Mitchell, Complexity: A Guided Tour.

• Mitchell Waldrop, Complexity, the emerging science at the edge of order and chaos.

• Resnick, Turtles, Termites, and Traffic Jams.

• Rucker, The Lifebox, The Seashell, and the Soul.

• Sawyer, Social Emergence: Societies As Complex Systems.

• Schelling, Micromotives and Macrobehaviors.

• Schiff, Cellular Automata: A Discrete View of the World.

• Strogatz, Sync.

• Watts, Six Degrees.

• Wolfram, A New Kind Of Science.

入門讀物，推薦米歇爾·沃爾德洛普的《複雜》，這本書市面上已很難找到，但電子版有不少。而後能夠考慮約翰·霍蘭的《隱秩序》。

至於第三本，沒有必定之規，我我的是看的《複雜系統建模與仿真》，屬於「術」的層面。

在這之後建議根據你所從事的領域再進行選擇，目前在生物、物理、經濟領域，此類文章不少。

學術雜誌方面，國內有份學報《複雜系統與複雜性科學》，有興趣也能夠訂閱。

網絡資源方面，推薦集智俱樂部http://www.swarmagents.com/，是複雜系統愛好者們交流的地方。

看周濤（最年輕教授那個周濤）的論文的參考文獻。各類經典名著基本上挖不出來有效信息，要麼玄學，要麼在數學上過於老舊，要麼容量只有一兩篇論文。隔壁有人推薦的Think complexity 看樣子可行，畢竟有各類經典算例的代碼。

不過論文的前置教材課本須要看，至少包括數學基礎教科書，可選博弈論和統計物理。

另外被摺疊的答案說是垃圾專業反映了至關一部分實際狀況。這類研究的範式有問題，在現實數據不足時模型只能停留在宗教式比喻的層面上，而數據足夠的時候玩法又徹底不同（變成模式識別/機器學習了）。

關於鄭鈞的回答，我以爲涉及的點很好，可是有些知識不是很準確；

map/reduce 是一種分佈式計算的框架，TIIDF能夠看做是一種特徵表示方法；統計方法比較經常使用的包括，樸素貝葉斯，最大後驗機率，EM算法,CRF(好比用於分詞)等；

SVM不是聚類方法，而是分類迴歸方法； VSM應該是vector-space-model吧，是向量空間模型，是文本表示的基本模型；常見的聚類方法分爲兩類，層次聚類和扁平聚類，扁平聚類的表明算法是經典的KMean算法。分類方法也用的不少，好比SVM和決策樹。

NLP自己有一點比較特別的是語言模型；

聚類分：基於劃分（k-means和k中心）、基於層次（凝聚和劃分）、基於密度等

文本挖掘、NLP包括的細分領域都很是很是的寬闊。工做中，實際使用的領域，比較有限，所以一我的沒有那麼多精力把全部這些細分領域都搞清楚搞明白。

既然如此，不如針對工做中實際是用的文本挖掘或NLP領域的某個細分方向，搞熟悉、搞透徹，玩明白。總比大而泛的學習，要好一些。

做文本挖掘須要學習NLP，由於你須要處理文本，提取出你感興趣的信息。若是你對機器學習熟悉，學習statistical NLP仍是比較容易的。另外，也須要補充一些語言學基礎知識。

既然是「文本挖掘」，天然語言處理最基本的功能點確定都要作：

新詞發現、分詞、詞性標註、分類、自動提取標籤、實體自動發現和識別。

最基本的這些功能點作了以後，能夠用統計方法完成簡單文本挖掘應用，統計方法好比：

TF/IDF、Map/Reduce、貝葉斯。

再深刻一些，就須要：

聚類（層次聚類、SVM、VSM）、情感趨勢分析。

再想提升：

語法分析、句式判斷。

但通常作到NLP最基本功能點+統計方法便可搞定通常的互聯網應用。

map/reduce 不是統計方法。

「統計方法好比：TF/IDF、Map/Reduce、貝葉斯」

聚類（層次聚類、SVM、VSM）

SVM主要是分類、迴歸？

「聚類（層次聚類、SVM、VSM）」

關於鄭鈞的回答，我以爲涉及的點很好，可是有些知識不是很準確；

NLP自己有一點比較特別的是語言模型；

我有問題，在作文本挖掘時，先要對文本進行分詞，而如何分，和這些x詞語的使用頻率，以及這個詞語可存在性有關，特別是新詞，而如今的文本挖掘軟件好像都沒有這些信息，或者沒有接入這些信息的入口，好比搜狗輸入法。那是否會存在缺陷？

SAS的EM模塊中有一個Text Miner插件，能夠作文本挖掘，支持30幾種語言；它的幫助文檔很詳細，要用的功能基本上都有介紹。

貴不在多，首先在於能真正瞭解文本挖掘的過程，以及中間涉及到的技術及應用場合。而後根據你的需求，對其中某一個分支領域（好比是特徵抽取，仍是句法分析等等）或者某一個算法（是貝葉斯仍是SVM？）進行鑽研...

瞭解一下仍是好的，我以爲如今數據挖掘的問題在於：算法學習的太多，卻不可以有效的解決本身面臨的問題和持續優化，算法和問題之間是存在很大的溝壑的

贊成@駱逸的說法，數據挖掘的說法太大了，關鍵看你要作什麼，天然語言、推薦系統、圖像處理等均可以叫數據挖掘，關鍵看你要作什麼

做爲一個科班出身的人，我一直給門外漢們混用數據挖掘和天然語言處理。

文本挖掘的基礎是提取文本特徵，而特徵的提取就看對天然語言理解的好壞了。

從本質上來說，天然語言處理是文本挖掘的基礎，學好天然語言理解可以更有效地設計出完美的文本挖掘的應用算法。可是，從學術領域講，天然語言處理和文本挖掘是平行的，兩者有交集，也有不一樣的地方。天然語言處理顧名思義更側重於語言學，涉及詞彙、語義、語法等方面的知識，而文本挖掘更側重於技術手段，包括算法時間複雜性、算法空間複雜性、基於網絡的應用、數據的存儲等方面的內容。

其餘答案都已經說的很好了，我也是剛入門沒多久，之前關注的也是數據挖掘方面，最近開始研究文本挖掘。個人理解是文本挖掘能夠等價於天然語言處理加數據挖掘。由於數據挖掘須要的是數據，而文本提供的是文字，因此文本挖掘須要經過天然語言處理技術，提取文本特徵，每每是一個向量表示，特徵提取也有不少模型，提取特徵之後，就能夠進行數據挖掘。因此，文本挖掘確定是須要天然語言處理技術的。

課程：https://class.coursera.org/nlangp-001/class/index

書：信息檢索導論＝Introduction to information retrieval／(美)曼寧(Christopher D. Manning),(美)Prabhakar Raghavan, (德)Hinrich Schutze著；王斌譯．—北京：人民郵電出版社，2010

我用Java

這本綜述不錯，很全面http://www.amazon.com/Mining-Text-Data-Charu-Aggarwal/dp/1461432227/ref=sr_1_1?ie=UTF8&qid=1435160429&sr=8-1&keywords=mining+text+data

做者的Coursera的課程https://class.coursera.org/textanalytics-001

咱們學校用的是SPSS Modler, 專業版自帶text mining。這個幾乎不須要懂編程語言，教材就是IBM本身的pdf版本user guide。搜索：ftp://public.dhe.ibm.com/software/analytics/spss/documentation/modeler/15.0/en/Users_Guide_For_Text_Analytics.pdf

咱們學校用的是spss modeler 14.2, 不過好像15更穩定一點。若是你是我的用的話，R什麼的好像比較好。spss這個挺貴的，都是企業纔買。

學習Clementine text mining模塊有沒有什麼比較好的資料？感受text mining模塊資料比較少，難以入門·····求幫助

1. 把LDA換成supervised LDA，對新來的樣本能夠作inference判斷類別

2. 用「已經訓練獲得一些話題」做爲feature，訓練一個分類器，對新來的樣本作判別

3. 扔掉LDA，直接用文本詞袋訓練分類器，對新來的樣本作判別

LDA模型的根本目的，就是把一個高維的文檔向量降維成一個低維度的文檔向量。對於高維的文檔向量來講，就是原始的被切詞後的特徵向量，每一個特徵是一個維度，降維後的低維的文檔向量，每一個維度是一個主題，每一個主題是經過Dirichlet參數估計獲得的一個基於各個原始特徵的Multinominal Distribution。因此，理解清楚Dirichlet過程的本質，是個降維的過程，咱們就知道，文本最終仍是被視做一個Vector來處理的。

那麼一個Vector就是一個高維的數據點，怎麼分類？無非仍是傳統的方法。分類自己就是一個Supervised方法，對於高維數據點，主流的方法是：

1)Decision Tree

2)Neural Network

3)Naive Bayesian

其餘的稍微複雜點，能夠自行構造!

用labeledlda 方法，效果不錯，有興趣能夠討論

文本分類中如何降維？修改

若是是以詞做爲特徵，有的詞老是同時出如今某一篇文檔中，怎麼樣把這些詞合併起來？好比說在個人數據集合裏，中國和北京這兩個詞大部分時間老是同時出現，那麼若是按正常的分詞，這就生成了兩維特徵，我怎麼把這兩維特徵合併呢？

你的問題其實在數據挖掘裏面不難，其實也沒有涉及到降維，真在的降維是數量級的降維。

你的這個問題應該按照如下方案處理：

1、對文本作共現詞彙統計，能夠統計相鄰距離不超5的詞，也能夠統計鄰接詞。

2、選擇共現比較多的組合做爲特徵，加入特徵集。

3、生成訓練模型。

傳統特徵選擇的方法包括如下幾種：信息增益（IG），互信息（MI），卡方檢驗（卡方），最大熵等。降維的方法能夠使用粗糙集（Rough Set，RS）屬性約簡。

分類器構築能夠使用SVM等工具

《集體智慧編程》不錯！

傳統特徵選擇的方法包括如下幾種：信息增益（IG），互信息（MI），卡方檢驗（卡方），最大熵等。這幾種方法怎麼用R實現？

請看Mahout In Action，其中提到了兩種方法，一是基於LDA的Topic Model，把相同主題的詞抽取爲特徵。另外一種方式我不太記得名字了。固然，使用各類MF（矩陣分解Matrix Factorization）方法也能夠提取特徵，就是運算量太大。

LSI的計算量很是大的說，由於SVD的時間複雜度是O（D^3）

Coursera - Free Online Courses From Top Universities: https://www.coursera.org/about/partners

推薦UIUC的這門課，介紹了搜索引擎的整個流程，也有programming assignments~~

固然也介紹了BM25等page rank算法~~~

用了MeTA這個工具，挺好的課程。

去年專業實訓作過一個簡單的搜索引擎，因此能夠簡單說下框架。《數學之美》裏面提到搜索引擎分爲三大塊：下載，索引，搜索。

下載：

這部分是須要把你想要搜索的範圍的原始數據。若是搜索的範疇是網頁上的內容，那麼它就是一個網絡爬蟲。我當時作的是一個校內網的搜索引擎，因此就寫了一個爬蟲從校園網主頁開始下載，分析網頁內的連接把符合要求的連接加入待下載隊列，這樣一直把全部校園網的網頁所有都下載下來。

索引

搜索引擎之因此能夠搜的那麼快，都是索引的功勞。索引是一種專門針對搜索優化的結構，詳情能夠百度倒排索引。

前面搜索下載的是網頁全文，裏面的html標籤是不須要被搜索的，因此要把數據清洗一下，提取出其中的重要內容。

文本內容的預處理還須要分詞、去除無心義的停用詞等。分詞是什麼呢…你仍是百度吧

創建索引有現成的庫：LUCENE ，它自帶有幾個默認分詞器，若是想要你的搜索引擎搜索的結果更好，你能夠使用的中文分詞器（這個固然也有現成的工具啦，ik分詞，NLPIR這些都是現有的解決方案，效果也還不錯）若是以前沒有接觸過它，那就須要學習一下。

索引創建好了，接下來就是搜索了。搜索是將根據查詢詞，搜索索引內匹配的內容，而後展現出來。符合查詢詞的結果多了的時候怎麼辦呢，這就涉及到排序的問題，這就有點複雜啦，這就涉及到不少排序算法好比tfidf之類的東西，不過這些lucene的api也幫你作了，它的內部有一個打分機制，將打分高放在搜索結果的前面。

以上三個點，每個地方若是要展開，均可以寫一部小書了，根據題主狀況選擇瞭解學習。

說了以上，若是你只是想實現一個小文本量的檢索功能，select * from xxx like ...就能夠知足你的需求。

若是基礎知識木有神馬問題，那麼固然是能夠的。

所謂的基礎知識沒有問題，起碼是高等數學、線性代數和統計學沒有啥問題。在此基礎之上，能夠學習下統計語言學。

基本上這樣就能作很簡單的文本檢索了。

首先須要一個爬蟲。若是你用java的話寫一個不難。須要分析html。而後作索引能夠用lucene。而後作個界面顯示lucene的搜索結果。

看題主的描述是想在站內建一個搜索引擎，根本不須要考慮什麼爬蟲的問題，建議以開源搜索框架Solr(或者Elasticsearch)開始。

DB-Engines Ranking，這裏是一個搜索引擎流行度的排行，以Lucene爲基礎的工具很是流行，掌握了相關的應用和技術足以應對通常的搜索場景，同時對搜索的方方面面有必定的瞭解。

若是想對搜索的原理有更多瞭解，建議經過《信息檢索導論》創建主幹。其餘內容徹底能夠靠google填充。

張俊林的《這就是搜索引擎-核心技術詳解》號稱詳解實則科普，若是決定認真學習，不建議看這本書。

其實電子商務搜索引擎在整個搜索引擎家族的製做中相對來講應該算是不難的一個，只要有必定的技術和電商頭腦均可以作出不錯的來。固然，裏面涉及的經濟學、美學等等交叉學科的知識，也是須要掌握的。下面就說幾點我認爲重要的東西。

1.必需要掌握搜索原則和搜索方法

由於電子商務搜索引擎最主要的目標就是讓受衆看到你的東西，這纔有可能產生你指望的效益，不管是購買仍是幫你推廣。因此首先要理解搜索引擎的概念及其工做原理，而後要理解一些最基本的算法，若是你連爬蟲什麼的都不知道，那就別期望去作出好的引擎了。即便再小也作不出。

理論和方法層面能夠看看入門經典教科書籍，例如《搜》巴特爾，《低智商社會》；國內的《搜索引擎》、《深刻搜索引擎》都不錯。

2.必須掌握必定的技術性內容

這個就沒得說啦！除非你要把工程外包。這裏我以爲必定要注意電子商務搜索引擎和其餘搜索引擎的區別，好比說具體的排序算法。你究竟想讓本身的網站到達什麼程度？如何排名？都是你工做不一樣的動力。與此同時，要掌握些推廣的方法，也許你不屑於作這些，能夠，可是請不要忘記你的對手是作這些的，因此要學習些SEO 和 SEM的知識。某寶上的推廣營銷雖然很是不靠譜，但也能夠「取其精華去其糟粕」。

3.有關電子商務搜索引擎的小細節

例如分析本身的網站是否適合競價排名？如何安排搜索引擎的關鍵詞排放？如何根據本身想要推廣的內容來進行關鍵詞設定？如何提升點擊率與業務轉換率的關係等。

曾今也想本身作一個簡單的搜索引擎，學長推薦的一個BLOG，我按照BLOG的思路用c++實現了一個，能夠檢索本身學校網站的信息。

一個簡單的搜索引擎只須要：網絡爬蟲，分詞和檢索。IBM developerWorks 中國 : Java technology : 文檔庫

你的搜索引擎的用途是：用在一個不大的電商網站或是相似果殼的網站上

說明你的數據來源的問題解決了。因此就剩下：索引處理和查詢處理這兩步了。爲何須要這兩步？你須要瞭解信息檢索的理論基礎知識，不須要很深。

索引處理：每一個庫的方式都不同。可是基礎理論知識都同樣

查詢處理：每一個庫的查詢DSL都不同。

總一句話：先簡單學習信息檢索的基礎理論知識，而後學習一個現成的搜索引擎工具：Solr，Elasticsearch等。

搜索引擎門檻較高，最好創建在一款成熟的開源框架之上。固然搞以前最好花點時間瞭解搜索引擎的本質——索引。

爬蟲、分詞、page ranking、查找都是圍繞着索引作文章。題主須要瞭解索引相關的數據結構和算法，好比B+樹、hash表以及經典的排序查找算法。mysql用的是B+樹，通用搜索引擎的結構簡單來講是倒排索引。

https://www.elastic.co/

詞典資源：
SentiWordNet
《知網》中文版
中文情感極性詞典 NTUSD
情感詞彙本體下載

天然語言處理工具和平臺：
哈爾濱工業大學社會計算與信息檢索研究中心
isnowfy/snownlp · GitHub

漢語分詞：
天然語言處理與信息檢索共享平臺 NLPIR.org
fxsjy/jieba · GitHub

語料資源：
信息分類與情感發現

課程：
斯坦福大學天然語言處理第七課「情感分析（Sentiment Analysis）」

網站和博客：
Text Classification for Sentiment Analysis
Second Try: Sentiment Analysis in Python : Andy Bromberg
Basic Sentiment Analysis with Python

論文：
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.244.9480&rep=rep1&type=pdf

工具：
建議使用Python. 集成上述全部功能，簡單易學。

本身寫過一個博客，基本有簡單實現上述步驟，厚臉皮貼出。
Explore in Data

分享下我知道的，雖然還了解得很少…本身作的東西只是中文的，因此對英文的文本分析不太熟悉，並且算法的東西也涉及得不多。拋磚引玉求推薦更多，尤爲是博客和論壇。

資料：
這本書記得也是在知乎看到的，能夠當作教材參考http://book.douban.com/subject/5373023/；
以文本挖掘、情感分析、觀點挖掘等關鍵詞搜索論文，綜述和應用類均可以看一些；
情報類的期刊，如《情報雜誌》、《圖書館情報學》等也會涉及到這方面的內容。
網站：
我愛天然語言處理 NLP的算法和模型爲主
武大瀋陽的博客思路和應用，也有部分工具分享
語料庫語言學在線語料和語言學的論壇，理論、工具和編程開發方面的問題均可以討論
工具：
ROST 虛擬學習團隊就是武大瀋陽出的，傻瓜式但功能很強大
語料庫在線語料庫資源

騰訊文智
騰訊文智是一個語義分析開放平臺，它基於並行計算和分佈式爬蟲系統，給用戶提供語義分析OpenAPI。用戶經過短短几行代碼便可調用文智API，實現語義分析功能。文智的主要應用場景包括輿情監控、個性化推薦、語義搜索等。

OM的方法其實不算太多，模型也都不復雜
這篇綜述還不錯，能夠看看：
http://www.cse.iitb.ac.in/~pb/cs626-449-2009/prev-years-other-things-nlp/sentiment-analysis-opinion-mining-pang-lee-omsa-published.pdf
可是這篇坑爹之處在於沒有目錄。。。

國內第一個券商輿情監測平臺首次提供券商業輿情監測、輿情預警、輿情報告、輿情諮詢一條龍服務的平臺。

國內第一大券商信源數據庫國內最大券商財經信源庫：可監測1800個新聞網站、1273家報刊、96家境外中文媒體、2000家全球英文媒體、1.5億博客、20萬貼吧及所有核心財經論壇。

國內第一大券商網絡社區監測體系大型計算機系統每10分鐘抓取一次券商新聞數據，全面提供論壇、博客、貼吧、微博中關於券商經紀業務、資管業務、投行業務、自營業務、直投業務等內容的討論。

國內第一個券商情報監測平臺全面監測券商國內外競爭對手、旗下產業基金、正在保薦的企業新聞、投資者關係及市場與戰略動態等；並提供券商業關聯部委與關聯行業實時政策動態。

和訊通對於A+H股公司或在歐美上市的券商提供英文內容監測，還可實現券商在國外競爭對手官網信息的所有抓取。

和訊通將券商行業新聞細分爲：經紀業務、資管業務、投行業務、自營業務、直投業務、研究業務等多個分類。和訊做爲一家財經門戶，歷史數據庫能夠提供500- 1000個細分行業的分類，這一分類大約是中國證監會和ICB國際分類總量的10倍。

和訊通可以提供電腦、蘋果iPad、 iPhone三種產品版本，一個號碼就能夠同時登陸三種平臺，真正實現了無縫傳播。

和訊通是一種保密的輿情客戶端，一個帳號綁定一臺電腦，防止盜號，也防止內部泄露帳號；支持目前國內市場上所有主流的瀏覽器；產品最佳分辨率1024*768。平臺定製完成後，咱們向客戶提交帳號，帳號不限制數量。

和訊通做爲定製平臺，由專業新聞編輯遲早班人工值守後臺，可自由添加券商競爭對手名單，實時甄選同業要聞等內容；並提供以郵件、短信及彈出框三重方式預警公司敏感新聞。它獨家研發的彈出框預警功能，能夠像QQ同樣實時在線預警。同時，對重要客戶的重大事件能夠提供電話通知。


: 國內信源; 港澳臺信源; 歐美信源; 平媒輿情
量化分析
網媒監測: 綜合門戶; 地域門戶; 行業門戶; 網媒輿情
量化分析
社區監測: 微博; 論壇; 博客; 貼吧; 社區輿情
量化分析
機構監測: 券商公司研報; 券商行業研報; 資金進出報告; 報告輿情
量化分析
情報監測: 券商同業
新聞監測; 券商旗下產
業基金監測; 保薦企業監測; 券商關聯部委及
關聯行業監測; 國內外財經
要聞監測

輿情分析系統

概述：

在社會中當一種論調獲得你們的認同後，輿情甚至能夠對事件的走向產生重大的影響，利用輿情分析系統重這些輿情中分析出些什麼，獲得些什麼，那麼就能夠作出一個正確的決定。輿情分析，就是一個風向標。

產品功能：

1．熱點話題、敏感話題識別

能夠根據新聞出處權威度、評論數量、發言時間、密集程度等參數，識別出給定時間段內的熱門話題。利用關鍵字布控和語義分析，識別敏感話題。

2．傾向性分析

對於每一個話題了解發表人的文件觀點，對傾向性進行分析和統計。

3．主題跟蹤

分析網絡上新發布的新聞文章和論壇帖子，關注話題是否與已有主題相同或相似。

4．趨勢分析

分析某個主題在不一樣的時間段內，人們所關注的程度。

5．突發事件分析

對突發事件進行跨時間、跨空間綜合分析，獲知事件發生的全貌並預測事件發展的趨勢

6．報警系統

對突發事件、涉及內容安全的敏感話題即時發現並報警。

7．統計報告

根據輿情分析平臺處理後的結果生成報告，用戶可經過瀏覽器瀏覽，提供信息檢索功能，根據指定條件對熱點話題、傾向性進行查詢，並瀏覽信息的具體內容，提供決策支持。

產品特色：

1．信息採集自定義

能夠設定採集的欄目、URL、更新時間、掃描間隔等。

2．支持多種字符集編碼

輿情分析採集系統可以自動識別多種字符集編碼。

3．支持整個互聯網採集

用戶只需輸入搜索關鍵詞就可以直接向互聯網中定製的內容進行直接採集。

4．支持內容抽取識別

系統可對網頁進行內容分析和過濾，自動去除廣告、版權、欄目等無用信息，精確獲取目標內容主體。

5．自動去除類似內容

經過內容相關識別技術自動判斷採集數據間的關係，若是發現描述時間的文章，自動去除重複部分。

輿情監測解決方案

經過科學的數據採集、數據挖掘與天然語言處理技術，結合紅麥軟件成熟的輿情監測模型，咱們爲客戶提供專業的輿情監測解決方案。

紅麥輿情觀點

解決思路

用技術手段進行全面監測
面對複雜的輿情環境，單依靠人力顯然不足，須要採用技術手段進行全面監測。紅麥輿情監測系統能夠全面地對客戶相關信息進行立體監測，對輿情信息「一網打盡」。

一體化的專業輿情監測服務體系
採用輿情監測系統進行監測只是第一步，咱們將提供從輿情信息監測、輿情預警、輿情分析到輿情應對等一體化的專業服務。

關鍵環節

輿情采集
利用輿情監測系統咱們的監測監測範圍覆蓋論壇類、新聞類、博客、SNS、視頻以及平面媒體等，根據客戶的需求，調整相應的監測配置，實現7*24小時全天候監測。

輿情分析
輿情繫統的輿情分析功能將對輿情信息進行自動分類、聚類，權重分析，情感判斷，數據統計等分析，在此基礎上，紅麥輿情分析師結合自身在輿情領域的專業知識與經驗，對客戶輿情進行熱點事件研判、輿情發展趨勢等深刻分析。根據客戶的需求，調整相應的監測配置，實現7*24小時全天候監測。

輿情預警
利用輿情繫統的自動預警功能，客戶可以在預警信息出現的第一時間收到郵件、短信、IM等方式的預警通知，實現真正意義的輿情監測。根據客戶的需求，調整相應的監測配置，實現7*24小時全天候監測。

追蹤導控
對於熱點輿情，一方面，系統可作到持續追蹤，經過趨勢分析圖和傳播路徑分析圖等技術幫助用戶瞭解熱點事件的報道趨勢及前因後果；另外一方面，輿情分析師會爲客戶提供專業的輿情導控方案。根據客戶的需求，調整相應的監測配置，實現7*24小時全天候監測。

申萬宏源金工新聞雲:

http://news.bignews.la/news100.html

http://www.kui4.com/SWSPhotos/newslist.html

大數據技術正在完全改變IT技術與產業格局
做爲大數據技術王冠上的寶石，Hadoop正在引領一個全新技術時代的到來
不懂Hadoop，你將與大數據技術失之交臂；不通Hadoop，你將被大數據時代無情拋棄

█ 高薪酬

數聽說話——權威高薪技術排行榜（Dice Tech Salary Survey）最新排名Hadoop居首，也就是說，Hadoop人才的薪酬是全部技術工種中最高的。隨着企業對大數據的重視程度日益加深，具有多元統計分析、數據挖掘、預測建模、天然語言處理、內容分析、文本分析以及社交網絡分析等職業背景的技術人員必將更受重視，Hadoop將成爲大數據時代技術人員得到高薪高職的必備技術技能。

█ 高需求

Hadoop人才薪酬高的同時，伴隨着Hadoop人才缺口巨大致使的高需求，本已排名最高的薪酬水平還將持續上漲。企業對Hadoop以及大數據相關技術的興趣日益高漲，這同時也讓大數據技術方面的技術人才煊赫一時，Hadoop人才需求成爲剛需。除IT企業外，愈來愈多的傳統行業企業也開始擁抱大數據，在至關長的時期內，企業對Hadoop人才的高需求仍將會持續。

█ 高回報

沒有高薪酬是萬萬不能的，但高薪酬也不是萬能的。除了得到高薪外，技術人員也但願進行職業提高，在企業內得到更多的重視與尊重，經過Hadoop技術的部署和實施爲企業帶來更大的商業價值。《Hadoop技術開發與管理實戰》精品培訓將陪伴你從入門到精通，全面掌握Hadoop技術與維護；同時推進你從技術高手到職場精英的華麗轉變，得到真正的高回報。

█ 全新美國同步課程

《Hadoop技術開發與管理實戰》精品培訓引進美國Hadoop先進課程體系，並實時同步更新。國內培訓，便可全面瞭解Hadoop最新的前沿趨勢與技術細節。

█ Cloudera認證講師實力授課

《Hadoop技術開發與管理實戰》精品培訓的講師是中國第一個得到Cloudera Hadoop課程認證的業界先行者與技術專家，實力授課保證培訓質量。

█ 大數據學院權威主辦

《Hadoop技術開發與管理實戰》精品培訓由大數據學院權威主辦。是國內首家大數據專業教育培訓機構。依託於大數據世界論壇，大數據培訓學院擁有豐富的師資資源、國際同步的課程體系與優質的服務流程。

█ 身臨其境的實戰體驗

《Hadoop技術開發與管理實戰》精品培訓提供實機操做的培訓體驗，同時，講師在授課過程當中，實戰思想將貫穿始終，保證學員學以至用，學的好，用的精。　　　　　　　　

█ 但願事業和職務發展中更進一步的高級技術人才：

經過培訓補充Hadoop專業技能，豐富自身的知識結構和技術儲備，爲往後的事業發展和職業晉升贏得核心競爭力。

█ 正在選擇和尋找新的職業機會的技術從業者：

經過培訓得到有關Hadoop分析的專業技能，也有助於但願更換公司和職務的技術從業者得到新的發展機會與職業回報，同時也有助於新入行的技術從業者得到更高的職業起點。

█ 企業高層管理者及IT決策者：

經過培訓瞭解Hadoop對管理決策的重要意義及實現方式，培養數據知道決策的意識，助力構建「數據驅動型」企業。

█ 對Hadoop技術有濃厚興趣的研發人員及相關人員：

經過培訓全面地進行Hadoop方面的技術積累，構建系統的Hadoop知識結構，有效推動Hadoop相關研發及相關項目的進展並實現既定目標。

█ 將來但願以Hadoop技術、營銷、市場、管理、研究等爲事業和職業目標爲相關人員：

經過培訓深刻了解Hadoop相關技術和行業應用，爲將來的事業和職業發展打下堅實基礎。　　　　　　　　　　　　　　　　

與國際同步的《Hadoop技術開發與管理實戰》精品培訓從市場需求出發，緊密結合行業及企業對數據分析技術的需求實際，針對目前最熱門的Hadoop技能提供專業培訓。《Hadoop技術開發與管理實戰》精品培訓擁有全面、系統的體系與內容結構，參考以下：

█ Hadoop Overview | Hadoop概述
• Hadoop Introduction | Hadoop簡介
• Hadoop Ecosystems | Hadoop生態系統
• Hadoop 2.0 | 新一代Hadoop

█ The Motivation for Hadoop | 爲什麼選擇Hadoop
• Problems with Traditional Large-Scale Systems | 傳統大規模數據處理系統面臨挑戰
• Requirements for a New Approach | 需求催生新技術方案
• Introducing Hadoop | Hadoop出現

█ Hadoop: Basic Concepts | Hadoop: 基本概念
• The Hadoop Project and Hadoop Components | Hadoop項目與組件
• The Hadoop Distributed File System | Hadoop分佈式文件系統(HDFS)
• Hands-On Exercise: Using HDFS | 實機操做：使用HDFS
• How MapReduce Works | MapReduce如何運行
• Hands-On Exercise: Running a MapReduce Job | 實機操做：運行MapReduce做業
• How a Hadoop Cluster Operates | 如何運行Hadoop集羣

█ Writing a MapReduce Program | MapReduce編程
• The MapReduce Flow | MapReduce工做流
• Basic MapReduce API Concepts | MapReduce API基本概念
• Writing MapReduce Drivers, Mappers and Reducers in Java
• Writing Mappers and Reducers in Other Languages Using the Streaming API
• Speeding Up Hadoop Development by Using Eclipse | 使用Eclipse加速Hadoop開發
• Hands-On Exercise: Writing a MapReduce Program | 實機操做：MapReduce編程
• Differences Between the Old and New MapReduce APIs | MapReduce新舊API區別

█ Unit Testing MapReduce Programs | MapReduce程序單元測試
• Unit Testing | 單元測試
• The JUnit and MRUnit Testing Frameworks | JUnit與MRUnit測試框架
• Writing Unit Tests with MRUnit | 使用MRUnit進行單元測試
• Hands-On Exercise: Writing Unit Tests with the MRUnit Framework | 實機操做：MapReduce單元測試框架

█ Delving Deeper into the Hadoop API | Hadoop API深刻研究
• Using the ToolRunner Class | 使用ToolRunner類
• Decreasing the Amount of Intermediate Data with Combiners | 使用組合器減小中間數據
• Hands-On Exercise: Writing and Implementing a Combiner | 實機操做：組合器的編寫與實現
• Setting Up and Tearing Down Mappers and Reducers by Using the Configure and Close Methods | 使用配置和關閉方法創建和解除Mappers和Reducers
• Writing Custom Partitioners for Better Load Balancing | 爲更好的負載均衡編寫自定義Partitioner
• Accessing HDFS Programmatically | 以編程方式訪問HDFS
• Using The Distributed Cache | 使用分佈式緩存
• Using the Hadoop API’s Library of Mappers, Reducers and Partitioners | 使用Hadoop API庫Mappers、Reducers和Partitioners

█ Practical Development Tips and Techniques | 開發技巧與實踐
• Strategies for Debugging MapReduce Code | MapReduce代碼調試策略
• Testing MapReduce Code Locally by Using LocalJobReducer | 使用LocalJobReducer測試本地MapReduce代碼
• Writing and Viewing Log Files | 日誌文件寫入和查看
• Retrieving Job Information with Counters | 檢索做業信息和計數器
• Determining the Optimal Number of Reducers for a Job | 肯定最優Reducer數量
• Creating Map-Only MapReduce Jobs | 建立Map-Only做業
• Hands-On Exercise: Using Counters and a Map-Only Job | 實機操做：使用計數器及Map-Only做業

█ Data Input and Output | 數據輸入和輸出
• Creating Custom Writable and WritableComparable Implementations | 建立自定義Writable和WritableComparable的實現
• Saving Binary Data Using SequenceFile and Avro Data Files | 使用SequenceFile和Avro保存數據
• Implementing Custom Input Formats and Output Formats | 實現自定義輸入和輸出格式
• Issues to Consider When Using File Compression | 壓縮文件時須要注意的問題
• Hands-On Exercise: Using SequenceFiles and File Compression | 實機操做：使用SequenceFiles和文件壓縮

█ Common MapReduce Algorithms | MapReduce常見算法
• Sorting and Searching Large Data Sets | 大型數據集合分類與查找
• Performing a Secondary Sort | 二次排序
• Indexing Data | 數據索引
• Hands-On Exercise: Creating an Inverted Index | 實機操做：進行反向索引
• Computing Term Frequency — Inverse Document Frequency | 逆文檔頻率
• Calculating Word Co-Occurrence | 計算詞共現
• Hands-On Exercise: Calculating Word Co-Occurrence | 實機操做：計算詞共現

█ Joining Data Sets in MapReduce Jobs | MapReduce數據集插入
• Writing a Map-Side Join | Map端寫入
• Writing a Reduce-Side Join | Reduce端寫入

█ Integrating Hadoop into the Enterprise Workflow | 將Hadoop集成到企業工做流
• Integrating Hadoop into an Existing Enterprise | 將Hadoop集成到企業現有的IT基礎設施
• Loading Data from an RDBMS into HDFS by Using Sqoop | 使用Sqoop從HDFS導數據到RDBMS
• Hands-On Exercise: Importing Data with Sqoop | 實機操做:使用Sqoop導入數據
• Managing Real-Time Data Using Flume | 使用Flume管理實時數據
• Accessing HDFS from Legacy Systems with FuseDFS and HttpFS | 使用FuseDFS和HttpFS從保留系統訪問HDFS

█ Machine Learning and Mahout | 機器學習與Mahout
• Introduction to Machine Learning | 機器學習介紹
• Using Mahout | 使用Mahout
• Hands-On Exercise: Using a Mahout Recommender | 實機操做：使用Mahout推薦引擎

█ An Introduction to Oozie | Oozie
• Introduction to Oozie | Oozie介紹
• Creating Oozie Workflows | 建立Oozie工做流
• Hands-On Exercise: Running an Oozie Workflow | 實機操做：運行Oozie工做流

█ Cluster Maintenance | 集羣維護
• Checking HDFS with fsck | 使用fsck命令檢查HDFS
• Copying data with distcp | 使用distcp拷貝大數據文件
• Rebalancing cluster nodes | 集羣節點負載均衡
• Adding and removing cluster nodes | 添加和刪除集羣節點
• Hands-On Exercise: Verifying the Cluster’s Self-Healing Features | 實機操做: 驗證集羣自我修復機制
• Backup And Restore | 備份和恢復
• Upgrading and Migrating | 升級和遷移
• Hands-On Exercise: Backing Up and Restoring the NameNode Metadata | 實機操做: 備份和恢復NameNode元數據

█ Populating HDFS From External Sources | 從外部來源填充的HDFS
• Using Sqoop | 使用Sqoop
• Using Flume | 使用Flume
• Best Practices for Data Ingestion | 數據提取最佳實踐

█ Installing And Managing Other Hadoop Projects | 安裝和管理其餘Hadoop項目
• Hive | Hive
• Pig | Pig
• HBase | HBase
• Hands-On Exercise: Configuring the Hive Shared Metastore | 實機操做：配置Hive共享元數據存儲

█ Hadoop and Big Data Era | Hadoop與大數據時代
• Understand big data | 大數據概述
• Big Data and Hadoop Industry Practical Applications and Enterprise Case Analysis | 大數據與Hadoop行業實踐應用與企業案例研究
• Big Data Era: Hadoop Development Trends and Opportunities | 大數據時代：Hadoop發展趨勢與機遇

培訓體系結構圖供參考，具體課程安排會進行相應調整

《Hadoop技術開發與管理實戰》精品培訓致力於打造中國最有影響力的大數據專業培訓，不但注重技術與技能的講解與培訓，也注重動手能力的培養；不但擁有全面系統的技術體現機構，也同時提供最新行業實踐和商業應用的最新資訊；不但豐富學員的Hadoop專業知識結構，也爲培訓學員提供Hadoop相關職業發展的寶貴建議；不但提供現場授課，也提供後續網上學習和服務機會。參加《Hadoop技術開發與管理實戰》精品培訓還能夠得到培訓證書、培訓推薦信（適用於更換職位或有求職需求的學員）、《Hadoop與大數據資料光盤》（各大專業峯會論壇及知名公司技術資料等）、培訓會員卡（參加後續專項培訓享受會員折扣）等。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。