[WIP] portage de la page Elasticsearch

2016-09-26 12:01:45 +02:00 · 2016-09-26 12:01:45 +02:00 · 2a329100e4
parent 1e5a1ee301
commit 2a329100e4
1 changed files with 464 additions and 0 deletions
--- a/HowtoElasticsearch.md
+++ b/HowtoElasticsearch.md
@ -0,0 +1,464 @@
 ---
 title: Howto Elasticsearch : installation et usage courant
 ---
 _Page en cours de vérification._
 * Site officiel : https://www.elastic.co/fr/products/elasticsearch
 * Documentation : https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html
 * Forum communautaire : https://discuss.elastic.co/c/elasticsearch
 Pour une installationde basique la suite ELK, voir l'article [HowtoELK].
 ## Installation
 Nous utilisons les paquets Debian distribués par Elasticsearch, les paquets officiels Debian n'étant pas à jour (Elasticsearch est en développement actif…) :
 ~~~
 # echo "deb http://packages.elastic.co/elasticsearch/2.x/debian stable main" | tee -a /etc/apt/sources.list.d/elasticsearch-2.x.list
 # wget -qO - https://packages.elastic.co/GPG-KEY-elasticsearch | apt-key add -
 # aptitude update
 # aptitude install elasticsearch openjdk-7-jre
 ~~~
 Il faut penser à mettre `http://packages.elastic.co/.*` dans la whitelist de Squid si nécessaire.
 Pour que le démon soit géré automatiquement par SysV init :
 ~~~
 # update-rc.d elasticsearch defaults 95 10
 ~~~
 Pour systemd :
 ~~~
 # systemctl enable elasticsearch
 ~~~
 ## Configuration
 Il est conseillé de ne pas activer le logging stdout vers la console. Mais de conserver seulement vers les logs. (/var/log/elasticsearch).
 Dans `/etc/elasticsearch/logging.yml`
 ~~~
 -rootLogger: ${es.logger.level}, console, file
 +rootLogger: ${es.logger.level}, file
 ~~~
 Si on a un `/tmp` en _noexec_, il faut changer le chemin, au risque d'avoir l'erreur suivante.
 ~~~
 [2016-06-15 14:53:05,714][WARN ][bootstrap                ] unable to load JNA native support library, native methods will be disabled.
 java.lang.UnsatisfiedLinkError: /tmp/jna--1985354563/jna3461912487982682933.tmp: /tmp/jna--1985354563/jna3461912487982682933.tmp: failed
 to map segment from shared object: Operation not permitted
 ~~~
 Dans `/etc/default/elasticsearch` :
 ~~~
 ES_JAVA_OPTS="-Djava.io.tmpdir=/var/lib/elasticsearch/tmp"
 ~~~
 Assurez-vous de créer le répertoire :
 ~~~
 # mkdir /var/lib/elasticsearch/tmp
 # chown elasticsearch: /var/lib/elasticsearch/tmp
 ~~~
 ## Plugins utiles
 ### Kopf - web admin interface for elasticsearch
 https://github.com/lmenezes/elasticsearch-kopf
 ~~~
 /usr/share/elasticsearch/bin/plugin install lmenezes/elasticsearch-kopf
 ~~~
 ## Mode cluster
 Exemples avec 3 instances nommés **elastic1**, **elastic2** et **elastic3**. Avec le mode d'auto découverte.
 Spécifier un nom de cluster dans `elasticsearch.yml` sur chaque machine.
 ~~~
 cluster.name: mycluster
 ~~~
 On donnera un nom aux nœuds avec la directive suivante :
 ~~~
 node.name: "elastic1"
 ~~~
 En analysant les logs de **elastic2** on verra ceci :
 ~~~
 /var/log/elasticsearch/mycluster.log:
 [2013-10-03 15:52:59,863][INFO ][transport                ] [elastic2] bound_add
 ress {inet[/0:0:0:0:0:0:0:0:9300]}, publish_address {inet[/192.168.4.205:9300]}
 [2013-10-03 15:53:03,247][INFO ][cluster.service          ] [elastic2] detected_
 master [elastic1][3tn7uHSHR8-donXO6JXFRA][inet[/192.168.4.201:9300]], added {[el
 astic1][3tn7uHSHR8-donXO6JXFRA][inet[/192.168.4.201:9300]],}, reason: zen-disco-
 receive(from master [[elastic1][3tn7uHSHR8-donXO6JXFRA][inet[/192.168.4.201:9300
 ]]])
 [2013-10-03 15:53:03,338][INFO ][discovery                ] [elastic2] mycluster
 /aFsNsA7pRa2_injvAU5Hwg
 [2013-10-03 15:53:03,362][INFO ][http                     ] [elastic2] bound_add
 ress {inet[/0:0:0:0:0:0:0:0:9200]}, publish_address {inet[/192.168.4.205:9200]}
 [2013-10-03 15:53:03,362][INFO ][node                     ] [elastic2] started
 ~~~
 Indiquant que le master a été détecté.
 Et sur **elastic1**, le master :
 ~~~
 [2013-10-03 15:53:03,176][INFO ][cluster.service          ] [elastic1] added {[e
 lastic2][aFsNsA7pRa2_injvAU5Hwg][inet[/192.168.4.205:9300]],}, reason: zen-disco
 -receive(join from node[[elastic2][aFsNsA7pRa2_injvAU5Hwg][inet[/192.168.4.205:9
 300]]])
 [2013-10-03 15:54:37,112][INFO ][cluster.service          ] [elastic1] added {[e
 lastic3][CLCB_hU5TeGXLziFcLjY8w][inet[/192.168.4.204:9300]],}, reason: zen-disco
 -receive(join from node[[elastic3][CLCB_hU5TeGXLziFcLjY8w][inet[/192.168.4.204:9
 300]]])
 ~~~
 Indique que les deux slaves ont été ajoutés.
 On peut consulter le status en faisant des requêtes de types RESTFul. :
 ~~~
 curl 'http://localhost:9200/_nodes?pretty=true'
 ~~~
 Si le master passe en DOWN, un autre est élu.
 ~~~
 [2013-10-03 16:15:53,892][INFO ][discovery.zen            ] [elastic2] master_le
 ft [[elastic1][3tn7uHSHR8-donXO6JXFRA][inet[/192.168.4.201:9300]]], reason [shut
 _down]
 [2013-10-03 16:15:53,920][INFO ][cluster.service          ] [elastic2] master {n
 ew [elastic3][CLCB_hU5TeGXLziFcLjY8w][inet[/192.168.4.204:9300]], previous [elas
 tic1][3tn7uHSHR8-donXO6JXFRA][inet[/192.168.4.201:9300]]}, removed {[elastic1][3
 tn7uHSHR8-donXO6JXFRA][inet[/192.168.4.201:9300]],}, reason: zen-disco-receive(f
 rom master [[elastic3][CLCB_hU5TeGXLziFcLjY8w][inet[/192.168.4.204:9300]]])
 ~~~
 Pour éviter de faire des requêtes multicast (mode auto-découverte). On spécifiera la liste des nœuds dans la configuration des instances.
 ~~~
 discovery.zen.ping.multicast.enabled: false
 discovery.zen.ping.unicast.hosts: ["elastic2", "elastic3"]
 ~~~
 ## Check Nagios
 On check sur la page `/_cluster/health` si le status n'est pas en **red**.
 ~~~
 /usr/lib/nagios/plugins/check_http -H localhost -u /_cluster/health -p 9200 -r '"status":"red",' --invert-regex
 ~~~
 ## Backup
 Une sauvegarde simple peut être de sauvegarder `/var/lib/elasticsearch/`
 Il est néanmoins conseillé de désactiver/flusher les translogs avant la sauvegarde, puis de les réactiver :
 ~~~
 $ curl -s -X PUT 'localhost:9200/_settings' -d '{"index.translog.disable_flush": true}' >/dev/null
 $ curl -s 'localhost:9200/_flush' | grep -qe '"ok":true'
 $ if [ $? -eq 0 ]; then
      rsync -a --delete /var/lib/elasticsearch/ /home/backup/elasticsearch/
  else
     echo "Error when flushing ES translog indexes."
  fi
 $ curl -s -XPUT 'localhost:9200/_settings' -d '{"index.translog.disable_flush": false}' > /dev/null
 ~~~
 Une sauvegarde plus avancée est d'utiliser les snaphosts, un exemple :
 ~~~
 $ cd /srv/snapshots
 $ for i in $(ls -1d snapshot-* | head -n -10 | sed s'/snapshot-snapshot_//g'); do curl -s -XDELETE "localhost:9200/_snapshot/backup/snaps hot_${i}"; done
 $ date=$(date +%Y-%m-%d)
 $ curl -s -XDELETE "localhost:9200/_snapshot/backup/snapshot_${date}" | grep -v acknowledged..true
 $ curl -s -XPUT "localhost:9200/_snapshot/backup/snapshot_${date}?wait_for_completion=true" -o /tmp/es_snapshot_${date}.log
 ~~~
 Attention, en mode cluster il faut gérer des montages NFS sur les nœuds slaves car chacun écrit uniquement les données qu'il a !
 ## Principe de fonctionnement
 _Basé sur le livre <http://exploringelasticsearch.com/book>_
 On utilisera l'outil Curl pour faire les requêtes.
 En plaçant à la fin d'une URI `?pretty=true` on pourra obtenir un JSON formaté, plus lisible pour les humains.
 ### Avec une base de données d'exemple
 Nous allons utiliser une BDD d'exemple pour faire des tests.
 Télécharger, <https://github.com/andrewvc/ee-datasets/archive/master.zip>, décompresser l'archive et exécuter le programme Java qui va injecter la BDD "movie_db" dans votre cluster ES.
 ~~~
 java -jar elastic-loader.jar http://localhost:9200 datasets/movie_db.eloader
 ~~~
 La BDD movie_db contient quelques noms de films, avec leurs informations associés (genre, date, acteurs, …).
 Pour consulter tout son contenu :
 ~~~
 curl http://localhost:9200/movie_db/_search?pretty=true
 ~~~
 ### En créant une BDD
 #### Opérations CRUD
 Créer un index (équivalent d'une base de données) nommé « planet ».
 ~~~
 curl -X PUT localhost:9200/planet
 ~~~
 Créer un type de donnée nommé « hacker ».
 ~~~
 curl -X PUT localhost:9200/planet/hacker/_mapping -d @- <<< '
 {
    "hacker": {
        "properties": {
            "handle": {
                "type": "string"
            },
            "age": {
                "type": "long"
            }
        }
    }
 }
 '
 ~~~
 Créer un document de type hacker avec l'ID 1.
 ~~~
 curl -X PUT localhost:9200/planet/hacker/1 -d @- <<< '{"handle": "jean-michel", "age": 18}'
 ~~~
 Voir son contenu.
 ~~~
 curl localhost:9200/planet/hacker/1?pretty=true
 ~~~
 Mise à jour du champ âge.
 ~~~
 curl -X POST localhost:9200/planet/hacker/1/_update -d @- <<< '{"doc": {"age": 19}}'
 ~~~
 Suppression du document.
 ~~~
 curl -X DELETE localhost:9200/planet/hacker/1
 ~~~
 #### Recherche basique
 Recréons un index de test :
 ~~~
 curl -X DELETE localhost:9200/planet
 ~~~
 ~~~
 curl -X PUT localhost:9200/planet -d @- <<< '
 {
    "mappings": {
        "hacker": {
            "properties": {
                "handle": {
                    "type": "string"
                },
                "hobbies": {
                    "type": "string",
                    "analyzer": "snowball"
                }
            }
        }
    }
 }
 '
 ~~~
 Ajoutons quelques documents.
 ~~~
 curl -X PUT localhost:9200/planet/hacker/1 -d @- <<< '
 {
    "handle": "mark",
    "hobbies": ["rollerblading", "hacking", "coding"]
 }
 '
 curl -X PUT localhost:9200/planet/hacker/2 -d @- <<< '
 {
    "handle": "gondry",
    "hobbies": ["writing", "skateboarding"]
 }
 '
 curl -X PUT localhost:9200/planet/hacker/3 -d @- <<< '
 {
    "handle": "jean-michel",
    "hobbies": ["coding", "rollerblades"]
 }
 '
 ~~~
 Recherchons ceux qui ont pour hobby « rollerblading ».
 ~~~
 curl -X POST localhost:9200/planet/hacker/_search?pretty=true -d @- <<< '
 {
    "query": {
        "match": {
            "hobbies": "rollerblading"
        }
    }
 }
 '
 ~~~
 On obtiens 2 résultats, _jean-michel_ et _mark_. Pourtant le hobby de _jean-michel_ n'est pas _rollerblading_ mais _rollerblades_, alors comment Elastic Search l'a trouvé ?
 C'est parce qu’il comprend que _rollerblading_ et _rollerblades_ sont très similaires ! Cela grâce à l'analyseur de type « snowball » que nous avons indiqué lors de la création du type _hobbies_. Cela indique à ES qu'il s'agit non pas d'une chaîne de caractère banale mais du texte Anglais (Gestion des autres langues ?).
 ## snapshots
 http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/modules-snapshots.html
 Création d'un répertoire pour accueillir les snapshots :
 ~~~
 # mkdir /home/backup-elasticsearch
 # chown elasticsearch:elasticsearch /home/backup-elasticsearch
 # chmod 750 /home/backup-elasticsearch
 # vim /etc/elasticsearch/elasticsearch.yml
 path.repo: ["/home/backup-elasticsearch"]
 $ curl -XPUT 'http://localhost:9200/_snapshot/backup' -d '{
 "type": "fs",
    "settings": {
        "location": "/home/backup-elasticsearch",
       "compress": true
    }
 }'
 {"acknowledged":true}
 ~~~
 ATTENTION, dans le cadre d'un cluster, chaque noeud écrira ses données
 dans son répertoire local… et ne les effacera pas en cas de DELETE.
 Il faut donc centraliser ce répertoire via un montage NFS !
 Vérifier les infos du répertoire pour les snapshots :
 ~~~
 $ curl -XGET 'http://localhost:9200/_snapshot/?pretty'
 ---
 {
  "backup" : {
    "type" : "fs",
    "settings" : {
      "compress" : "true",
      "location" : "/home/backup-elasticsearch"
    }
  }
 }
 ~~~
 Supprimer les infos sur le répertoire des snapshots :
 ~~~
 $ curl -s -XDELETE "localhost:9200/_snapshot/backup?pretty"
 ---
 {"acknowledged":true}
 ~~~
 Créer un snapshot :
 ~~~
 $ curl -s -XPUT "localhost:9200/_snapshot/backup/snapshot_test?wait_for_completion=true"
 $ ls -l /home/backup-elasticsearch
 -rw-r--r--  1 elasticsearch elasticsearch   34 Apr 11 01:35 index
 drwxr-xr-x 22 elasticsearch elasticsearch 4096 Apr 11 01:35 indices
 -rw-r--r--  1 elasticsearch elasticsearch 3006 Apr 11 01:35 metadata-snapshot_test
 -rw-r--r--  1 elasticsearch elasticsearch  419 Apr 11 01:35 snapshot-snapshot_test
 ~~~
 Supprimer un snapshot :
 ~~~
 $ curl -s -XDELETE "localhost:9200/_snapshot/backup/snapshot_test"
 ~~~
 Si l'on tente de créer un snapshot déjà existant, on obtiendra :
 ~~~
 {"error":"InvalidsnapshotNameException[[backup:snapshot_test] Invalid snapshot name [snapshot_test], snapshot with such name already exists]","status":400}
 ~~~
 Lister les snapshots :
 ~~~
 $ curl -XGET "localhost:9200/_snapshot/backup/_all?pretty=true"
 ---
  "snapshots" : [ {
    "snapshot" : "snapshot_201403190415",
    "indices" : [...],
    "state" : "SUCCESS",
    "start_time" : "2014-03-19T03:15:03.380Z",
    "start_time_in_millis" : 1395198903380,
    "end_time" : "2014-03-19T03:16:33.381Z",
    "end_time_in_millis" : 1395198993381,
    "duration_in_millis" : 90001,
 ...
   "snapshot" : "snapshot_201403201222",
    "indices" : [...],
    "state" : "SUCCESS",
    "start_time" : "2014-03-20T11:22:07.441Z",
    "start_time_in_millis" : 1395314527441,
    "end_time" : "2014-03-20T11:22:56.176Z",
    "end_time_in_millis" : 1395314576176,
    "duration_in_millis" : 48735,
    "failures" : [ ],
    "shards" : {
      "total" : 86,
      "failed" : 0,
      "successful" : 86
 ~~~
 Pour faire des backups on pourra utiliser un script comme celui-ci :
 ~~~
 # Clean old snapshots (keep 10 snaps).
 cd /home/backup-elasticsearch
 for i in $(ls -1d snapshot-* | head -n -10 | sed s'/snapshot-snapshot_//g'); do curl -s -XDELETE "localhost:9200/_snapshot/backup/snaps
 hot_${i}"; done
 # Take a snapshot on master node.
 date=$(date +%Y-%m-%d)
 curl -s -XDELETE "localhost:9200/_snapshot/backup/snapshot_${date}" | grep -v acknowledged..true
 curl -s -XPUT "localhost:9200/_snapshot/backup/snapshot_${date}?wait_for_completion=true" -o /tmp/es_snapshot_${date}.log
 ~~~