HowtoCeph: ajouter HEALTH_ERR Possible data damage

2023-04-28 10:51:19 +02:00 · 2023-04-28 10:51:19 +02:00 · 1cac36b594
parent e017c9268a
commit 1cac36b594
1 changed files with 55 additions and 0 deletions
--- a/HowtoCeph.md
+++ b/HowtoCeph.md
@ -1198,3 +1198,58 @@ Jan  1 12:34:56 hostmane ceph-osd[1234567]: 2022-01-01 12:34:56.789 01234567890a
 >                 │ ╰──────────────────────────────────┴╴UUID présent dans le nom du LV
 >                 ╰╴numéro de l'OSD
 > ~~~
 ## `HEALTH_ERR` - `Possible data damage`
 La commande `ceph -s` nous retourne une erreur de cette forme :
      cluster:
        health: HEALTH_ERR
                24 scrub errors
                Possible data damage: 3 pgs inconsistent
 Pour avoir les PG concernés :
    # ceph health detail
    HEALTH_ERR 24 scrub errors; Possible data damage: 3 pgs inconsistent
    OSD_SCRUB_ERRORS 24 scrub errors
    PG_DAMAGED Possible data damage: 3 pgs inconsistent
        pg 5.13 is active+clean+inconsistent, acting [8,0]
        pg 5.99 is active+clean+inconsistent, acting [9,4]
        pg 5.b8 is active+clean+inconsistent, acting [9,1]
 On voit qu’il s’agit des PG 5.13, 5.99 et 5.b8 hébergés respectivement sur les couples d’OSD [8,0], [9,4] et [9,1]. On peut avoir plus d’informations sur ces PG avec cette commande :
    # rados list-inconsistent-obj 5.99 --format=json-pretty
 Ici, la commande indique :
                "shards": [
                    {
                        "osd": 4,
                        "primary": false,
                        "errors": [],
                        "size": 4194304,
                        "omap_digest": "0xffffffff",
                        "data_digest": "0x242f0b48"
                    },
                    {
                        "osd": 9,
                        "primary": true,
                        "errors": [
                            "read_error"
                        ],
                        "size": 4194304
                    }
                ]
 L’OSD 9 retourne l’erreur `read_error`. Si on regarde la sortie de la commande `ceph osd tree`, on constate, dans ce cas, que :
 * tous les OSD sont actifs et accessibles ;
 * tous les PG ont une machine en commun.
 À ce stade, il faut vérifier sur la machine en question si les disques fonctionnent correctement. En l’occurrence, le fichier `/var/log/syslog` est rempli d’erreurs `blk_update_request: I/O error` pour deux disques, donc il faut les changer disques. En attendant, on peut essayer de faire réparer les PG :
    # ceph pg repair 5.99
 En fonction de l’état du disque physique, l’opération se déroulera correctement et le PG sera bon. Ça peut être une bonne de sortir l’OSD du _cluster_, car dans le cas d’une panne de disque, le problème va certainement se produire de nouveau.