Depuis Debian 9 (Stretch), le MariaDB plugin de réplication Galera est présent dans le paquet MariaDB serveur. De même, le paquet galera-4 (ou galera-3 suivant la version de MariaDB) est une dépendance de mariadb-serveur. Il n'y a donc aucune action supplémentaire à faire.
Depuis MariaDB 10.1 (Debian stretch), il y a le script _galera_new_cluster_ qui s'occupe de l'amorce du cluster. il est préférable de l'utiliser pour la première initialisation. Cette invocation soit être réalisée sur **un seul serveur**
Pour un monitoring simple du cluster, on peut utiliser le check nagios suivant <https://github.com/fridim/nagios-plugin-check_galera_cluster> sur chaque noeuds.
* Qu'il y ait assez de noeuds actifs dans le cluster
* Que le noeud surveillé soit master (ie: donc cluster opérationel)
* Que le cluster n'ait pas mis le noeud en pause trop longtemps pour qu'il récupère du retard (en surveillant `wsrep_flow_control_paused`)
### Munin
TODO
## Plomberie
### Récupération d’un cluster complètement arrêté.
Dans certains cas, on peut se retrouver dans une situation ou tous les nœuds du cluster sont arrêtés. Lors du démarrage d'un noeud il devient impossible de rejoindre le cluster, car il n’existe plus.
Cela nécessite de réamorcer manuellement le cluster. Commencer par inspecter le fichier `/var/lib/mysql/grastate.dat` sur chaque machines pour identifier le nœud qui contient la version la plus avancée de la base de donnée.
Si tous les nœuds ont bien été arrêtés, c’est donc le nœud avec le "seqno" le plus grand qui contient la dernière version de la base. C’est lui qui doit servir de point de départ.
Il se peut que `seqno` soit à -1. Dans ce cas-là, le nœud n’a pas été arrêté proprement. On peut alors récupérer le numéro de séquence avec la commande `mysqld --wsrep-recover`. L’information peut être récupéré dans `/var/log/mysql/error.log`
### Récupération d'un noeud avec un datadir corrompu
Dans une situation de corruption de données sur un noeud (causée par exemple par une saturation disque), on peut alors détruire le datadir pour le forcer à se resynchroniser de zéro.
Simplement créer le dossier avec les bon droits suiffit. Galera s'occupera du reste.
**Remarque importante** : Attention, il est préférable d'avoir deux noeuds "sains". En effet, le noeud corrompu va récupérer l'état du cluster via un des noeuds sains avec un rsync des données. Mais pendant l'opération, le noeud sain source du rsync, va passer en état "DONOR", et donc ne pas accepter de faire des écritures.
S'il n'y a qu'un seul noeud sain, l'opération va donc causer une interruption de service.