wiki/HowtoClickHouse.md
2023-07-06 14:59:44 +02:00

235 lines
8 KiB
Markdown

---
categories: databases
title: Howto ClickHouse
...
- Documentation : [https://clickhouse.com/docs/](https://clickhouse.com/docs/)
- Code : [https://github.com/ClickHouse/ClickHouse](https://github.com/ClickHouse/ClickHouse)
- Licence : [Apache 2.0](https://github.com/ClickHouse/ClickHouse/blob/master/LICENSE)
- Language : C++
- Rôle Ansible : (à venir)
**ClickHouse** est un système de gestion de base de données (SGBD) de la catégorie dite «orientée colonnes» (*column-oriented*). À l'instar des [autres systèmes comparables](https://en.wikipedia.org/wiki/Comparison_of_OLAP_servers), il est conçu d'abord pour le traitement analytique en ligne (*On-Line Analytical Processing, OLAP*). «En ligne» veut dire ici «temps réel».
# Requis
Les [requis](https://clickhouse.com/docs/en/operations/requirements) du système selon la documentation officielle :
- Processeurs : architecture x86_64 avec SSE 4.2 (AArch64 et PowerPC64LE possible en compilant soi-même depuis les sources) ; 16 cœurs à 2600 MHz est préférable à 8 cœurs à 3600 MHz, Turbo Boost et hyper-threading sont recommandés
- Mémoire vive : 4 Go de RAM minimum ; calculer la quantité requise en estimant la taille des données temporaires des opérations comme GROUP BY, DISTINCT, JOIN.
- Partition ou fichier d'échange : à désactiver en production
- Espace de stockage : 2 Go minimum pour l'installation
- Réseau : 10 Gbps ou supérieur recommandé
La documentation fournit plusieurs [recommandations d'usage](https://clickhouse.com/docs/en/operations/tips) et on peut même trouver des [résultats de tests de performance](https://benchmark.clickhouse.com/hardware/) de diverses configurations matérielles.
# Installation
[Procédure](https://clickhouse.com/docs/en/getting-started/install/#install-from-deb-packages) d'installation pour Debian et Ubuntu tirée de la documentation officielle :
~~~
# apt-get install -y apt-transport-https ca-certificates dirmngr
# cd /etc/apt/trusted.gpg.d
# wget 'https://keyserver.ubuntu.com/pks/lookup?op=get&search=0x3a9ea1193a97b548be1457d48919f6bd2b48d754' -O clickhouse.asc
# chmod 644 clickhouse.asc
# echo "deb https://packages.clickhouse.com/deb stable main" | tee \
/etc/apt/sources.list.d/clickhouse.list
# apt-get update
# apt-get install -y clickhouse-server clickhouse-client
# service clickhouse-server start
$ clickhouse-client # ou "clickhouse-client --password" si un mot de passe a été configuré.
~~~
Note 1 : il est possible de changer `stable` par `lts` dans la troisième ligne de la procédure ci-haut.
Note 2 : les paquets binaires précompilés (.deb, .rpm, .tgz) nécessitent le support des instructions SSE 4.2 côté CPU, ce qui peut être vérifié par la commande suivante : `grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported"`
Note 3 : Une version de 2018 (18.16.1) est disponible directement dans Debian 10 et 11.
# Configuration
Avec les paquets pour Debian et Ubuntu, la configuration passe par des fichiers installés là où on les attend :
~~~
/etc/clickhouse-server/config.xml
/etc/clickhouse-server/users.xml
/etc/clickhouse-server/config.d/
/etc/clickhouse-server/user.d/
/etc/clickhouse-client/config.xml
/lib/systemd/system/clickhouse-server.service
/var/log/clickhouse-server/
~~~
Les données sont par défaut dans ce répertoire :
~~~
/var/lib/clickhouse
~~~
La documentation sur la [configuration](https://clickhouse.com/docs/en/operations/configuration-files) nous apprend qu'il est possible d'utiliser `.yaml` au lieu de `.xml` et qu'une bonne pratique est de supplanter ou d'étendre la configuration via `config.d` and `users.d`.
# Mise à jour
~~~
# apt-get update
# apt-get install clickhouse-client clickhouse-server
# service clickhouse-server restart
~~~
# Administration
## Lister les utilisateurs
~~~
:) SHOW USERS;
~~~
## Changer un mot de passe
~~~
:) ALTER USER mon_utilisateur IDENTIFIED BY 'mon_mot_de_passe';
~~~
# Utilisation
ClickHouse parle le language SQL. Un [tutoriel](https://clickhouse.com/docs/en/tutorial) permet d'apprendre les bases (créer une nouvelle table, y insérer un grand ensemble de données et tester quelques requêtes).
Plusieurs [interfaces](https://clickhouse.com/docs/en/interfaces) sont disponibles, notamment en ligne de commande (`clickhouse-client`) et via HTTP (`http://localhost:8123/play`)
Pour se connecter en ligne de commande directement sur le serveur (localhost, port 9000) avec l'utilisateur par défaut :
~~~
$ clickhouse-client --password
~~~
Après avoir saisi le mot de passe on atterrit dans l'invite de ClickHouse où on peut obtenir une liste des commandes disponibles en tappant :
~~~
:) help
~~~
Pour voir quelles bases de données sont présentes sur le serveur :
~~~
:) SHOW DATABASES
~~~
Créer une base de données `helloworld` :
~~~
:) CREATE DATABASE IF NOT EXISTS helloworld
~~~
Créer une table dans la base de données `helloworld` :
~~~
:) CREATE TABLE helloworld.ma_table
(
user_id UInt32,
message String,
timestamp DateTime,
metric Float32
)
ENGINE = MergeTree()
PRIMARY KEY (user_id, timestamp)
~~~
Insérer des données dans la table `helloworld.ma_table` de manière interactive :
~~~
:) INSERT INTO helloworld.ma_table (user_id, message, timestamp, metric) VALUES
(101, 'Coucou, ClickHouse!', now(), -1.0 ),
(102, 'Insérez beaucoup d\'entrées en lot', yesterday(), 1.41421 ),
(102, 'Triez vos données grâce à vos requêtes favorites', today(), 2.718 ),
(101, 'Les granules sont les plus petits segments de données lues', now() + 5, 3.14159 )
~~~
Sélectionner toutes les entrées insérées dans la table :
~~~
:) SELECT * FROM helloworld.ma_table
~~~
Sélectionner toutes les entrées de la table, cette fois en triant par date et en formattant la sortie différemment :
~~~
:) SELECT * FROM helloworld.ma_table ORDER BY timestamp FORMAT JSON
~~~
La documentation officielle contient [une page présentant les différents formats disponibles](https://clickhouse.com/docs/en/interfaces/formats/).
Créer la table `trips` dans la base de données `helloworld` pour mieux illustrer la force de ClickHouse :
~~~
:) CREATE TABLE helloworld.trips (
trip_id UInt32,
pickup_datetime DateTime,
dropoff_datetime DateTime,
pickup_longitude Nullable(Float64),
pickup_latitude Nullable(Float64),
dropoff_longitude Nullable(Float64),
dropoff_latitude Nullable(Float64),
passenger_count UInt8,
trip_distance Float32,
fare_amount Float32,
extra Float32,
tip_amount Float32,
tolls_amount Float32,
total_amount Float32,
payment_type Enum('CSH' = 1, 'CRE' = 2, 'NOC' = 3, 'DIS' = 4),
pickup_ntaname LowCardinality(String),
dropoff_ntaname LowCardinality(String)
)
ENGINE = MergeTree
PRIMARY KEY (pickup_datetime, dropoff_datetime)
~~~
Insérer des données dans la table à partir de trois gros fichiers CSV distants proposés en exemple par ClickHouse. Ils contiennent des trajets de taxi de la Ville de New York de 2009 à nos jours :
~~~
:) INSERT INTO helloworld.trips
SELECT
trip_id,
pickup_datetime,
dropoff_datetime,
pickup_longitude,
pickup_latitude,
dropoff_longitude,
dropoff_latitude,
passenger_count,
trip_distance,
fare_amount,
extra,
tip_amount,
tolls_amount,
total_amount,
payment_type,
pickup_ntaname,
dropoff_ntaname
FROM url(
'https://datasets-documentation.s3.eu-west-3.amazonaws.com/nyc-taxi/trips_{0..2}.gz',
'TabSeparatedWithNames'
)
~~~
Confirmer l'insertion de plus de 3 millions d'entrées :
~~~
SELECT count()
FROM helloworld.trips
~~~
Laisser tomber la base de données `helloworld` avant de sortir de ClickHouse :
~~~
:) DROP DATABASE helloworld
:) exit
~~~
# Sauvegarde et restauration
Des exemples de [sauvegarde et de restauration](https://clickhouse.com/docs/en/operations/backup) sont proposées dans la documentation officielle.