Il est possible, avec un client Mysql/MariaDB standard, de se connecter à Clickhouse (port 9004) et d'utiliser des ordres SQL avec la syntaxe propre à Mysql/MariaDB.
Il existe aussi une possibilité d'utiliser un client Postgresl en se connectant à Clickhouse (port 9005), je n'ai pas encore testé cette entrée.
On peut par exemple créer un utilisateur avec :
create user lechef identified by 'le_beau_password';
grant all on *.* to lechef;
Ce que je préfère nettement au "bidouillage" de fichiers XML.
Par exemple pour charger ma "grosse" table depuis une base MariaDB dans Clickhouse (dans une machine virtuelle) j'ai créé dans Clickhouse un "serveur" connecté à la base située sur la machine "physique" à l'aide d'un ordre "simple" (du même style que pour l'option "federatedx" disponible dans MariaDB :
CREATE DATABASE test_maria
ENGINE = MySQL('192.168.2.7:3306',
'local_ntopng',
'test', 'test')
SETTINGS read_write_timeout=10000, connect_timeout=10;
Dans la base "physique" la table est au standard Mysql et on peut donc y accéder à travers cette base "test_maria" par cette sorte de "dblink". L'ordre de chargement des données est très simple :
insert into local_ntopng.flowsv4
select * from test_maria.flowsv4;
select min(idx),max(idx),count(distinct idx) from local_ntopng.flowsv4;
Le temps d'exécution est assez important car il faut passer par :
- Mariadb sur la machine physique
- Le réseau entre les deux machines
- Et enfin Clickhouse à travers le fameux dblink.
Comme déjà remarqué la consommation d'IO disques de Clickhouse est très irrégulière et a oscillé entre 0 et 240Mo/seconde. Le lien réseau est toujours resté au dessus de 100MO/sec avec des pointes à près de 200MO/sec (c'est en local sur la même machine physique).
Les résultats :
Query OK, 505751818 rows affected (36 min 54.958 sec)
+----------+-----------+----------------+
| min(idx) | max(idx) | uniqExact(idx) |
+----------+-----------+----------------+
| 1 | 505785066 | 505751818 |
+----------+-----------+----------------+
1 row in set (31.284 sec)
Ce qui n'est pas mauvais et simple pour ceux qui connaissent un peu le SQL.