Elasticsearch 5.5 入門必會(一)

前言

  • 安裝搜索引擎過程當中,我遇到了不少坑!發出來讓各位繞道而行,後面都是用ES關鍵字來代替Elasticsearch,後面的搭建和使用都是在centos 6.8環境下,本人使用的ES是5.5.0的版本,JDK使用1.8版本。
  • 相關文章:

          Elasticsearch 5.5 入門必會之Java client(二)java

          Elasticsearch 5.5 SQL語句轉Java Client 及相關注意事項(三)node

1、ES集羣搭建

    1.linux添加單獨用戶,由於ES不能使用root用戶啓動,會報錯!linux

java.lang.RuntimeException: can not run elasticsearch as root
        at org.elasticsearch.bootstrap.Bootstrap.initializeNatives(Bootstrap.java:106) ~[elasticsearch-5.5.1.jar:5.5.1]
        at org.elasticsearch.bootstrap.Bootstrap.setup(Bootstrap.java:194) ~[elasticsearch-5.5.1.jar:5.5.1]
groupadd search
#建立用戶
useradd search-g search
#設置密碼
passwd search

#建立es安裝目錄,而且用戶受權
mkdir /opt/elasticsearch
cd /opt
chown -R search:search elasticsearch

    2. 切換到search用戶,而後去官網下載es安裝包,解壓到/opt/elasticsearch目錄解壓。 git

    3. 啓動ESgithub

cd elasticsearch/bin
./elasticsearch

     4.你可能遇到以下問題:npm

#這個是linux內核不支持 syscall filter,centos 7以上聽說沒這個問題,可是不影響使用
unable to install syscall filter: 
java.lang.UnsupportedOperationException: seccomp unavailable: CONFIG_SECCOMP not compiled into kernel, CONFIG_SECCOMP and CONFIG_SECCOMP_FILTER are needed
#經過配置後面第[4]個好像就沒有報錯了
#linux max file配置太低
[1]: max file descriptors [4096] for elasticsearch process is too low, increase to at least [65536]
#經過配置 /etc/security/limits.conf 解決
* soft nofile 65536
* hard nofile 65536
* soft nproc 2048
* hard nproc 4096
#使用最大線程數太低
[2]: max number of threads [1024] for user [search] is too low, increase to at least [2048]
#經過配置/etc/security/limits.d/90-nproc.conf 解決
*  soft    nproc     2048
#虛擬內存配置過低
[3]: max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144]
#經過配置 /etc/sysctl.conf 追加一行以下解決
vm.max_map_count=655360
#system call filters安裝失敗
[4]: system call filters failed to install; check the logs and fix your configuration or disable system call filters at your own risk
#解決辦法經過配置 /opt/elasticsearch/config/elasticsearch.yml參數解決
bootstrap.memory_lock: false 
bootstrap.system_call_filter: false

     5. ES啓動JVM配置,在config/jvm.options調整了一下jvm參數bootstrap

-Xms8g
-Xmx8g

     6. 個人master的ES啓動配置參數,集羣服務器的115這個節點也是和一下配置相似,只是IP不同centos

cluster.name: onesearch
node.name: master-node1
path.logs: /home/search/logs
bootstrap.memory_lock: false
bootstrap.system_call_filter: false
network.host: 10.1.1.114
network.bind_host: 10.1.1.114
network.publish_host: 10.1.1.114
http.port: 9200

http.cors.enabled: true
http.cors.allow-origin: "*"
node.master: true
node.data: true
#我配置了兩個節點
discovery.zen.ping.unicast.hosts: ["10.1.1.114","10.1.1.115"]

   7. OK,如今啓動master節點,您會看到日誌就表明啓動成功了瀏覽器

[2017-08-11T15:25:24,405][INFO ][o.e.n.Node               ] [ZikeeFb] started

  8. 而後在啓動另一個master節點的時候,您會看到日誌裏面提示另一個節點已經鏈接,由於ES是自動發現節點的。bash

 

2、爲ES安裝head和ik分詞器插件

  • head插件是一個很實用的插件,界面簡介,即便您不使用http rest方式訪問也會對您後面的開發有很大的幫助
  • ik中文分詞器這個比較有名,好像paoding已經消失在歷史長河中了,很少說。

     1. 安裝head插件,在使用ES 5.5的時候,我在網上搜了一些文檔,可是都過期了,5.5安裝head插件還不如說是本身單獨安裝了一個node 而後跑了一個node程序去經過http接口訪問es接口。網上文檔都是一概的把插件解壓到ES的plugins目錄裏面,然而,我並無跑起來,或許是我本身的問題。下面介紹單獨跑node來部署head程序吧

#安裝node,安裝目錄你本身隨意定了
wget https://nodejs.org/dist/v6.11.2/node-v6.11.2-linux-x64.tar.xz
#配置nodejs環境變量 編輯 /etc/profile ,我直接使用的root安裝,這個所謂,主要安裝node相關工具須要一些權限
export PATH=/root/node-v6.11.2-linux-x64/bin:$PATH

#安裝git,這裏注意下,若是是自動安裝git 1.7的話 clone會報403錯,我是本身手動下載安裝了1.9
yum -y install git
#clone head插件源碼
git clone git clone git://github.com/mobz/elasticsearch-head.git
#進入head插件目錄執行
npm install grunt --save
npm install  #這個慢得一批
#安裝grunt cli
npm install -g grunt-cli
#編輯Gruntfile.js裏面的hostname
connect: {
        server: {
                options: {
                        port: 9100,
                        base: '.',
                        hostname: '0.0.0.0', ##這裏,這裏
                        keepalive: true
                }
        }
}
#編輯_site/app.js ,找到下面這一行,加行後面一截,若是IP不同,你本身修改,我是和master部署到同一個節點的
 this.base_uri = this.config.base_uri || this.prefs.get("app-base_uri") || "http://localhost:9200"; ## <-注意這裏,本身加

#啓動head程序
grunt server -d

#而後訪問 http://IP:9100/ 便可看到簡潔的界面

    head程序(我不叫插件,由於我單獨部署的)界面以下:

 

     2. ik分詞器插件安裝,順便說一句,使用yml配置方式來配置分詞器已經在5.5不適用,啓動會報錯

#傳說用的./elasticsearch-plugin install 方式來安裝插件,我也沒安裝成功
#ik的github上提供了 ./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v5.5.1/elasticsearch-analysis-ik-5.5.1.zip 我沒試,由於我用的另一種方式安裝成功了

#下載https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v5.5.2/elasticsearch-analysis-ik-5.5.2.zip

#在/opt/elasticsearch/plugins/下 建立ik目錄
mkdir ik
#而後把 elasticsearch-analysis-ik-5.5.2.zip 解壓到ik目錄,重啓ES便可
  •  測試分詞器standard是es自帶的,基本上就是一個字一個字的
#!!注意 下面鏈接裏面的 megacorp 是我經過head程序手動建立了一個索引
#瀏覽器訪問http://10.1.1.114:9200/megacorp/_analyze?analyzer=standard&pretty=true&text=我是卡爾碼農
#獲得一下訪問結果

{
  "tokens" : [
    {
      "token" : "我",
      "start_offset" : 0,
      "end_offset" : 1,
      "type" : "<IDEOGRAPHIC>",
      "position" : 0
    },
    {
      "token" : "是",
      "start_offset" : 1,
      "end_offset" : 2,
      "type" : "<IDEOGRAPHIC>",
      "position" : 1
    },
    {
      "token" : "卡",
      "start_offset" : 2,
      "end_offset" : 3,
      "type" : "<IDEOGRAPHIC>",
      "position" : 2
    },
    {
      "token" : "爾",
      "start_offset" : 3,
      "end_offset" : 4,
      "type" : "<IDEOGRAPHIC>",
      "position" : 3
    },
    {
      "token" : "碼",
      "start_offset" : 4,
      "end_offset" : 5,
      "type" : "<IDEOGRAPHIC>",
      "position" : 4
    },
    {
      "token" : "農",
      "start_offset" : 5,
      "end_offset" : 6,
      "type" : "<IDEOGRAPHIC>",
      "position" : 5
    }
  ]
}
  •  測試IK分詞器效果
#瀏覽器請求http://10.1.1.114:9200/megacorp/_analyze?analyzer=ik_smart&pretty=true&text=我是卡爾碼農
#其中analyzer=ik_smart能夠換成analyzer=ik_max_word 是ik提供兩種分詞方式
#獲得返回結果
{
  "tokens" : [
    {
      "token" : "我",
      "start_offset" : 0,
      "end_offset" : 1,
      "type" : "CN_CHAR",
      "position" : 0
    },
    {
      "token" : "是",
      "start_offset" : 1,
      "end_offset" : 2,
      "type" : "CN_CHAR",
      "position" : 1
    },
    {
      "token" : "卡爾",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "碼",
      "start_offset" : 4,
      "end_offset" : 5,
      "type" : "CN_CHAR",
      "position" : 3
    },
    {
      "token" : "農",
      "start_offset" : 5,
      "end_offset" : 6,
      "type" : "CN_CHAR",
      "position" : 4
    }
  ]
}

     仍是有一點效果,其實搜索引擎分詞頗有講究,如今我所瞭解的醫療行業的分詞已經有公司經過機器學習病例樣生成好用的字典給ik來使用,雖然上面"卡爾"被認爲在一塊兒,可是「碼農」很明顯也應該合併一下,這個咱們均可以經過配置ik的字典來解決這個問題,當前不討論這個問題了。

 

最後

   當初有接觸過lucene、後來接觸compass、再後來接觸TB的終搜、solrj包括如今的ES,搜索引擎在各行業中都發揮這重要做用,後面我會提到ES在咱們單位的使用實戰狀況。感謝您的關注!

相關文章
相關標籤/搜索