Elasticsearch是一個開源的高擴展的分佈式全文檢索引擎,它能夠近乎實時的存儲、檢索數據;自己擴展性很好,能夠擴展到上百臺服務器,處理PB級別的數據。Elasticsearch也使用Java開發並使用Lucene做爲其核心來實現全部索引和搜索的功能,可是它的目的是經過簡單的RESTful API來隱藏Lucene的複雜性,從而讓全文搜索變得簡單。java
2.一、機器環境準備
咱們準備3臺機器,並都裝好JDK且設置好hostname。node
機器IP | hostname |
192.168.182.132 | node-1 |
192.168.182.133 | node-2 |
192.168.182.134 | node-3 |
can not run elasticsearch as root
)# 建立用戶組 groupadd elsearch # 建立用戶,-p : 登陸密碼 useradd elsearch -g elsearch -p elsearch
官網下載:https://www.elastic.co/cn/downloads/elasticsearchlinux
# 下載
wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.4.2-linux-x86_64.tar.gz
# 解壓
tar zxvf elasticsearch-7.4.2-linux-x86_64.tar.gz && cd elasticsearch-7.4.2/
# 切換用戶組:全部者,跟上面建立的用戶相對應
chown -R elsearch:elsearch .
1.注意修改network.host爲各節點IP地址 2.注意修改discovery.zen.ping.unicast.hosts列表
cp -a config/elasticsearch.yml config/elasticsearch.yml.bak
配置:git
cat <<EOF >>/etc/elasticsearch/elasticsearch.yml ## 集羣名稱 cluster.name: my-cs-cluster ## 節點名稱(每一個節點名稱不能相同) node.name: 'node-1' ## 容許 JVM 鎖住內存,禁止操做系統交換出去 # bootstrap.memory_lock: true ## 是否有資格成爲主節點 ## 經過 node.master 能夠配置該節點是否有資格成爲主節點,若是配置爲 true,則主機有資格成爲主節點 ## 注意這裏是有資格成爲主節點,不是必定會成爲主節點 node.master: true ## 是不是數據節點 ## 當 node.master 和 node.data 均爲 false,則該主機會做爲負載均衡節點 node.data: true ## 設置訪問的地址和端口 network.host: 192.168.182.132 http.port: 9200 ## 集羣地址設置 ## 配置以後集羣的主機之間能夠自動發現 discovery.zen.ping.unicast.hosts: ["192.168.182.132", "192.168.182.133", "192.168.182.134"] # 參數設置一系列符合主節點條件的節點的主機名或 IP 地址來引導啓動集羣。手動指定能夠成爲 mater 的全部節點的 name 或者 ip,這些配置將會在第一次選舉中進行計算 # cluster.initial_master_nodes: ["node-1"] # 配置集羣的主機地址,配置以後集羣的主機之間能夠自動發現(可選項) # discovery.seed_hosts: ["192.168.182.132:9300","192.168.182.133:9300","192.168.182.134:9300"] # 配置初始化集羣的master節點,node.name的值 # cluster.initial_master_nodes: ["node-1"] ## 配置大多數節點(一般爲主節點的節點總數/ 2 + 1)來防止「裂腦」: discovery.zen.minimum_master_nodes: 2 ## 在徹底集羣重啓後阻止初始恢復,直到啓動N個節點 gateway.recover_after_nodes: 2 # 外網訪問設置 http.cors.enabled: true http.cors.allow-origin: * EOF vim /etc/elasticsearch/elasticsearch.yml
4.一、JDK版本太低github
報錯信息:web
OpenJDK 64-Bit Server VM warning: Option UseConcMarkSweepGC was deprecated in version 9.0 and will likely be removed in a future release. [2019-11-04T00:12:07,213][WARN ][o.e.b.ElasticsearchUncaughtExceptionHandler] [node-1] uncaught exception in thread [main] org.elasticsearch.bootstrap.StartupException: java.lang.RuntimeException: can not run elasticsearch as root at org.elasticsearch.bootstrap.Elasticsearch.init(Elasticsearch.java:163) ~[elasticsearch-7.4.2.jar:7.4.2] at org.elasticsearch.bootstrap.Elasticsearch.execute(Elasticsearch.java:150) ~[elasticsearch-7.4.2.jar:7.4.2] at org.elasticsearch.cli.EnvironmentAwareCommand.execute(EnvironmentAwareCommand.java:86) ~[elasticsearch-7.4.2.jar:7.4.2] at org.elasticsearch.cli.Command.mainWithoutErrorHandling(Command.java:125) ~[elasticsearch-cli-7.4.2.jar:7.4.2] at org.elasticsearch.cli.Command.main(Command.java:90) ~[elasticsearch-cli-7.4.2.jar:7.4.2] at org.elasticsearch.bootstrap.Elasticsearch.main(Elasticsearch.java:115) ~[elasticsearch-7.4.2.jar:7.4.2] at org.elasticsearch.bootstrap.Elasticsearch.main(Elasticsearch.java:92) ~[elasticsearch-7.4.2.jar:7.4.2] Caused by: java.lang.RuntimeException: can not run elasticsearch as root at org.elasticsearch.bootstrap.Bootstrap.initializeNatives(Bootstrap.java:105) ~[elasticsearch-7.4.2.jar:7.4.2] at org.elasticsearch.bootstrap.Bootstrap.setup(Bootstrap.java:172) ~[elasticsearch-7.4.2.jar:7.4.2] at org.elasticsearch.bootstrap.Bootstrap.init(Bootstrap.java:349) ~[elasticsearch-7.4.2.jar:7.4.2] at org.elasticsearch.bootstrap.Elasticsearch.init(Elasticsearch.java:159) ~[elasticsearch-7.4.2.jar:7.4.2] ... 6 more
wget https://download.java.net/java/GA/jdk11/13/GPL/openjdk-11.0.1_linux-x64_bin.tar.gz tar -xzvf jdk-11.0.4_linux-x64_bin.tar.gz /opt/
修改ES啓動腳本加上jdk11的配置:數據庫
爲了方便你們參考,這裏貼上完整的配置文件npm
#!/bin/bash # CONTROLLING STARTUP: # # This script relies on a few environment variables to determine startup # behavior, those variables are: # # ES_PATH_CONF -- Path to config directory # ES_JAVA_OPTS -- External Java Opts on top of the defaults set # # Optionally, exact memory values can be set using the `ES_JAVA_OPTS`. Note that # the Xms and Xmx lines in the JVM options file must be commented out. Example # values are "512m", and "10g". # # ES_JAVA_OPTS="-Xms8g -Xmx8g" ./bin/elasticsearch # 配置本身的jdk11 export JAVA_HOME=/home/elsearch/jdk-11.0.1 export PATH=$JAVA_HOME/bin:$PATH source "`dirname "$0"`"/elasticsearch-env if [ -z "$ES_TMPDIR" ]; then ES_TMPDIR=`"$JAVA" -cp "$ES_CLASSPATH" org.elasticsearch.tools.launchers.TempDirectory` fi ES_JVM_OPTIONS="$ES_PATH_CONF"/jvm.options JVM_OPTIONS=`"$JAVA" -cp "$ES_CLASSPATH" org.elasticsearch.tools.launchers.JvmOptionsParser "$ES_JVM_OPTIONS"` ES_JAVA_OPTS="${JVM_OPTIONS//\$\{ES_TMPDIR\}/$ES_TMPDIR}" # 添加jdk判斷 if [ -x "$JAVA_HOME/bin/java" ]; then JAVA="/home/elsearch/jdk-11.0.1/bin/java" else JAVA=`which java` fi # manual parsing to find out, if process should be detached if ! echo $* | grep -E '(^-d |-d$| -d |--daemonize$|--daemonize )' > /dev/null; then exec \ "$JAVA" \ $ES_JAVA_OPTS \ -Des.path.home="$ES_HOME" \ -Des.path.conf="$ES_PATH_CONF" \ -Des.distribution.flavor="$ES_DISTRIBUTION_FLAVOR" \ -Des.distribution.type="$ES_DISTRIBUTION_TYPE" \ -Des.bundled_jdk="$ES_BUNDLED_JDK" \ -cp "$ES_CLASSPATH" \ org.elasticsearch.bootstrap.Elasticsearch \ "$@" else exec \ "$JAVA" \ $ES_JAVA_OPTS \ -Des.path.home="$ES_HOME" \ -Des.path.conf="$ES_PATH_CONF" \ -Des.distribution.flavor="$ES_DISTRIBUTION_FLAVOR" \ -Des.distribution.type="$ES_DISTRIBUTION_TYPE" \ -Des.bundled_jdk="$ES_BUNDLED_JDK" \ -cp "$ES_CLASSPATH" \ org.elasticsearch.bootstrap.Elasticsearch \ "$@" \ <&- & retval=$? pid=$! [ $retval -eq 0 ] || exit $retval if [ ! -z "$ES_STARTUP_SLEEP_TIME" ]; then sleep $ES_STARTUP_SLEEP_TIME fi if ! ps -p $pid > /dev/null ; then exit 1 fi exit 0 fi exit $?
3.二、配置太低bootstrap
[1]: max file descriptors [4096] for elasticsearch process is too low, increase to at least [65535] [2]: max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144]
root
用戶ulimit -n 65536
root
用戶/etc/security/limits.conf
* hard nofile 65536vim
* hard nofile 65536
root
用戶sysctl -w vm.max_map_count=262144
root
用戶/etc/sysctl.conf
vm.max_map_count=262144
discovery.type: single-node
[root@file elasticsearch-7.1.1]# ./bin/elasticsearch Java HotSpot(TM) 64-Bit Server VM warning: INFO: os::commit_memory(0x00000000c5330000, 986513408, 0) failed; error='Cannot allocate memory' (errno # # There is insufficient memory for the Java Runtime Environment to continue. # Native memory allocation (mmap) failed to map 986513408 bytes for committing reserved memory. # An error report file with more information is saved as: # logs/hs_err_pid27766.log
解決:
# 修改jvm.options文件配置便可,從1g改爲了100m # Xms represents the initial size of total heap space # Xmx represents the maximum size of total heap space -Xms100m -Xmx100m
5、安裝elasticsearch-head
# 下載
wget https://github.com/mobz/elasticsearch-head.git
# 解壓 unzip elasticsearch-head-master.zip && cd elasticsearch-head-master
# 安裝
npm installgrunt --save
修改elasticsearch-head下Gruntfile.js文件,默認監聽在127.0.0.1下9200端口
或者修改 elasticsearch-head-master/Gruntfile.js,在connect屬性中,增長hostname: ‘0.0.0.0’
cd _site
vim app.js
this.base_uri = this.config.base_uri || this.prefs.get("app-base_uri") || "http://localhost:9200";
啓動
#執行
grunt server
輸出
>> Local Npm module "grunt-contrib-jasmine" not found. Is it installed? Running "connect:server" (connect) task Waiting forever... Started connect web server on http://localhost:9100
瀏覽器訪問
http://192.168.182.132:9100
進入elasticsearch-head-master目錄
# vim elasticsearch-head_start.sh #!/bin/bash echo "START elasticsearch-head " nohup grunt server &exit
#!/bin/bash echo "STOP elasticsearch-head " ps -ef |grep head|awk '{print $2}'|xargs kill -9
6、安裝Kibana
6.一、下載
官網下載:https://www.elastic.co/cn/downloads/kibana
6.二、安裝
wget https://artifacts.elastic.co/downloads/kibana/kibana-7.4.2-linux-x86_64.tar.gz tar -zxvf kibana-7.4.2-linux-x86_64.tar.gz && cd kibana-7.4.2-linux-x86_64
6.三、修改配置
# vi config/kibana.yml
# 容許外部訪問 server.host: "0.0.0.0"
# 修改默認關聯的ES地址
elasticsearch.hosts: ["http://192.168.182.132:9200"]
6.四、啓動
# 默認不支持root啓動,能夠後面加參數容許root啓動
./kibana --allow-root
6、在另外兩臺機子上安裝ES
6.一、拷貝
scp -r /home/elsearch/elasticsearch-7.4.2 root@192.168.182.133:/home/elsearch/ scp -r /home/elsearch/elasticsearch-7.4.2 root@192.168.182.134:/home/elsearch/
6.二、修改配置
# 修改節點名稱 node.name: "node-2" # node-3 # 修改節點屬性 node.master: false # 修改能訪問的ip地址 network.host: "192.168.182.133" # network.host: "192.168.182.134"
6.三、修改配置,跟上面的master機子同樣的設置
6.四、若是有以下報錯
[node-2] failed to send join request to master [{node-1}{WbcP0pC_T32jWpYvu5is1A}{2_LCVHx1QEaBZYZ7XQEkMg}{10.10.11.200}{10.10.11.200:9300}], reason [RemoteTransportException[[node-1][10.10.11.200:9300][internal:discovery/zen/join]]; nested: IllegalArgumentException[can't add node {node-2}{WbcP0pC_T32jWpYvu5is1A}{p-HCgFLvSFaTynjKSeqXyA}{10.10.11.200}{10.10.11.200:9301}, found existing node {node-1}{WbcP0pC_T32jWpYvu5is1A}{2_LCVHx1QEaBZYZ7XQEkMg}{10.10.11.200}{10.10.11.200:9300} with the same id but is a different node instance]; ]
解決:
# 中止ES 清空/data cd data/ rm -rf *
經過以上安裝配置,ES集羣就搭建起來了
最後附上配置完整說明:
cluster.name: elasticsearch # 配置的集羣名稱,默認是elasticsearch,es服務會經過廣播方式自動鏈接在同一網段下的es服務,經過多播方式進行通訊,同一網段下能夠有多個集羣,經過集羣名稱這個屬性來區分不一樣的集羣。 node.name: "Franz Kafka" # 當前配置所在機器的節點名,你不設置就默認隨機指定一個name列表中名字,該name列表在es的jar包中config文件夾裏name.txt文件中,其中有不少做者添加的有趣名字。 node.master: true # 指定該節點是否有資格被選舉成爲node(注意這裏只是設置成有資格, 不表明該node必定就是master),默認是true,es是默認集羣中的第一臺機器爲master,若是這臺機掛了就會從新選舉master。 node.data: true # 指定該節點是否存儲索引數據,默認爲true。 index.number_of_shards: 5 # 設置默認索引分片個數,默認爲5片。 index.number_of_replicas: 1 # 設置默認索引副本個數,默認爲1個副本。若是採用默認設置,而你集羣只配置了一臺機器,那麼集羣的健康度爲yellow,也就是全部的數據都是可用的,可是某些複製沒有被分配 # (健康度可用 curl 'localhost:9200/_cat/health?v' 查看, 分爲綠色、黃色或紅色。綠色表明一切正常,集羣功能齊全,黃色意味着全部的數據都是可用的,可是某些複製沒有被分配,紅色則表明由於某些緣由,某些數據不可用)。 path.conf: /path/to/conf # 設置配置文件的存儲路徑,默認是es根目錄下的config文件夾。 path.data: /path/to/data # 設置索引數據的存儲路徑,默認是es根目錄下的data文件夾,能夠設置多個存儲路徑,用逗號隔開,例: # path.data: /path/to/data1,/path/to/data2 path.work: /path/to/work # 設置臨時文件的存儲路徑,默認是es根目錄下的work文件夾。 path.logs: /path/to/logs # 設置日誌文件的存儲路徑,默認是es根目錄下的logs文件夾 path.plugins: /path/to/plugins # 設置插件的存放路徑,默認是es根目錄下的plugins文件夾, 插件在es裏面廣泛使用,用來加強原系統核心功能。 bootstrap.mlockall: true # 設置爲true來鎖住內存不進行swapping。由於當jvm開始swapping時es的效率 會下降,因此要保證它不swap,能夠把ES_MIN_MEM和ES_MAX_MEM兩個環境變量設置成同一個值,而且保證機器有足夠的內存分配給es。 同時也要容許elasticsearch的進程能夠鎖住內# # 存,linux下啓動es以前能夠經過`ulimit -l unlimited`命令設置。 network.bind_host: 192.168.0.1 # 設置綁定的ip地址,能夠是ipv4或ipv6的,默認爲0.0.0.0,綁定這臺機器的任何一個ip。 network.publish_host: 192.168.0.1 # 設置其它節點和該節點交互的ip地址,若是不設置它會自動判斷,值必須是個真實的ip地址。 network.host: 192.168.0.1 # 這個參數是用來同時設置bind_host和publish_host上面兩個參數。 transport.tcp.port: 9300 # 設置節點之間交互的tcp端口,默認是9300。 transport.tcp.compress: true # 設置是否壓縮tcp傳輸時的數據,默認爲false,不壓縮。 http.port: 9200 # 設置對外服務的http端口,默認爲9200。 http.max_content_length: 100mb # 設置內容的最大容量,默認100mb http.enabled: false # 是否使用http協議對外提供服務,默認爲true,開啓。 gateway.type: local # gateway的類型,默認爲local即爲本地文件系統,能夠設置爲本地文件系統,分佈式文件系統,hadoop的HDFS,和amazon的s3服務器等。 gateway.recover_after_nodes: 1 # 設置集羣中N個節點啓動時進行數據恢復,默認爲1。 gateway.recover_after_time: 5m # 設置初始化數據恢復進程的超時時間,默認是5分鐘。 gateway.expected_nodes: 2 # 設置這個集羣中節點的數量,默認爲2,一旦這N個節點啓動,就會當即進行數據恢復。 cluster.routing.allocation.node_initial_primaries_recoveries: 4 # 初始化數據恢復時,併發恢復線程的個數,默認爲4。 cluster.routing.allocation.node_concurrent_recoveries: 2 # 添加刪除節點或負載均衡時併發恢復線程的個數,默認爲4。 indices.recovery.max_size_per_sec: 0 # 設置數據恢復時限制的帶寬,如入100mb,默認爲0,即無限制。 indices.recovery.concurrent_streams: 5 # 設置這個參數來限制從其它分片恢復數據時最大同時打開併發流的個數,默認爲5。 discovery.zen.minimum_master_nodes: 1 # 設置這個參數來保證集羣中的節點能夠知道其它N個有master資格的節點。默認爲1,對於大的集羣來講,能夠設置大一點的值(2-4) discovery.zen.ping.timeout: 3s # 設置集羣中自動發現其它節點時ping鏈接超時時間,默認爲3秒,對於比較差的網絡環境能夠高點的值來防止自動發現時出錯。 discovery.zen.ping.multicast.enabled: false # 設置是否打開多播發現節點,默認是true。 discovery.zen.ping.unicast.hosts: ["host1", "host2:port", "host3[portX-portY]"] # 設置集羣中master節點的初始列表,能夠經過這些節點來自動發現新加入集羣的節點。
elasticsearch7版本引入的新集羣協調子系統瞭解一哈,新增兩個以下配置項
discovery.seed_hosts
cluster.initial_master_nodes
官方文檔栗子:
discovery.seed_hosts: - 192.168.1.10:9300 - 192.168.1.11 - seeds.mydomain.com cluster.initial_master_nodes: - master-node-a - master-node-b - master-node-c
7.一、下載
wget https://artifacts.elastic.co/downloads/logstash/logstash-7.4.2.tar.gz
7.二、解壓
tar -zxf logstash-7.4.2.tar.gz && cd logstash-7.4.2
7.三、到 grouplens 下載 MovieLens 測試數據集
wget http://files.grouplens.org/datasets/movielens/ml-latest-small.zip
7.四、解壓測試數據集
unzip ml-latest-small.zip && cd ml-latest-small
7.五、建立並編輯 logstash.conf 文件,添加以下內容(Ruby 語法)
input { file { path => "/home/elsearch/ml-latest-small/movies.csv" start_position => "beginning" sincedb_path => "/dev/null" } } filter { csv { separator => "," columns => ["id","content","genre"] } mutate { split => { "genre" => "|" } remove_field => ["path", "host","@timestamp","message"] } mutate { split => ["content", "("] add_field => { "title" => "%{[content][0]}"} add_field => { "year" => "%{[content][2]}"} } mutate { convert => { "year" => "integer" } strip => ["title"] remove_field => ["path", "host","@timestamp","message","content"] } } output { elasticsearch { hosts => "http://192.168.182.132:9200" index => "movies" document_id => "%{id}" } stdout {} }
7.六、導入數據,注意導入後不會自動退出,用 Ctrl-C 手動退出
./bin/logstash -f ../ml-latest-small/logstash.conf
7.七、Management 查看數據(Index 至關於關係型數據庫的 Table)