持續更新中......java
一、RPC(Remote Procedure Call Protocol)——遠程過程調用協議,它是一種經過網絡從遠程計算機程序上請求服務,而不須要了解底層網絡技術的協議。RPC協議假定某些傳輸協議的存在,如TCP或UDP,爲通訊程序之間攜帶信息數據。在OSI網絡通訊模型中,RPC跨越了傳輸層和應用層。RPC使得開發包括網絡分佈式多程序在內的應用程序更加容易。linux
二、AWK是一個優良的文本處理工具,Linux及Unix環境中現有的功能最強大的數據處理引擎之一。這種編程及數據操做語言(其名稱得自於它的創始人阿爾佛雷德·艾侯、彼得·溫伯格和布萊恩·柯林漢姓氏的首個字母)的最大功能取決於一我的所擁有的知識。awk通過改進生成的新的版本nawk,gawk,如今默認linux系統下平常使用的是gawk,用命令能夠查看正在應用的awk的來源(ls -l /bin/awk )算法
三、Hadoop是一個由Apache基金會所開發的分佈式系統基礎架構。編程
用戶能夠在不瞭解分佈式底層細節的狀況下,開發分佈式程序。充分利用集羣的威力進行高速運算和存儲。
Hadoop實現了一個
分佈式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有高
容錯性的特色,而且設計用來部署在低廉的(low-cost)硬件上;並且它提供高吞吐量(high throughput)來訪問
應用程序的數據,適合那些有着超大數據集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求,能夠以流的形式訪(streaming access)文件系統中的數據。
Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS爲海量的數據提供了存儲,則MapReduce爲海量的數據提供了計算。
四、
Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用並行框架,Spark,擁有Hadoop MapReduce所具備的優勢;但不一樣於MapReduce的是Job中間輸出結果能夠保存在內存中,從而再也不須要讀寫HDFS,所以Spark能更好地適用於數據挖掘與機器學習等須要迭代的MapReduce的算法。
五、
JNI是Java Native Interface的縮寫,它提供了若干的
API實現了Java和其餘語言的通訊(主要是
C&
C++)。從Java1.1開始,JNI標準成爲java平臺的一部分,它容許Java代碼和其餘語言寫的代碼進行交互。JNI一開始是爲了本地已
編譯語言,尤爲是C和C++而設計的,可是它並不妨礙你使用其餘編程語言,只要調用約定受支持就能夠了。使用java與本地已編譯的代碼
交互,一般會喪失平臺
可移植性。可是,有些狀況下這樣作是能夠接受的,甚至是必須的。例如,使用一些舊的庫,與硬件、操做系統進行交互,或者爲了提升程序的性能。JNI標準至少要保證
本地代碼能工做在任何Java
虛擬機環境下。
六、
SVN是Subversion的簡稱,是一個開放源代碼的版本控制系統,相較於RCS、CVS,它採用了分支管理系統,它的設計目標就是取代CVS。互聯網上不少版本控制服務已從CVS遷移到Subversion。
七、
LDA(Latent Dirichlet Allocation)是一種文檔主題生成模型,也稱爲一個三層
貝葉斯機率模型,包含詞、主題和文檔三層結構。所謂生成模型,就是說,咱們認爲一篇文章的每一個詞都是經過「以必定機率選擇了某個主題,並從這個主題中以必定機率選擇某個詞語」這樣一個過程獲得。
LDA是一種非監督機器學習技術,能夠用來識別大規模文檔集(document collection)或語料庫(corpus)中潛藏的主題信息。它採用了詞袋(bag of words)的方法,這種方法將每一篇文檔視爲一個詞頻向量,從而將文本信息轉化爲了易於建模的數字信息。可是詞袋方法沒有考慮詞與詞之間的順序,這簡化了問題的複雜性,同時也爲模型的改進提供了契機。每一篇文檔表明了一些主題所構成的一個機率分佈,而每個主題又表明了不少單詞所構成的一個機率分佈。
八、eclipse 官網下載各類eclipse版本地址