Utilitaire SqoopSqoop permet le transfert des données entre un cluster Hadoop et des bases de données relationnelles

Présentation

Sqoop est un outil qui permet d'envoyer des données situées sur hdfs sous forme d'une table hive vers une base de donnée externe via un connecteur jdbc ou de recevoir des données en provenance d'une base de données sur hdfs.

Les données présentes sur hdfs ne sont a priori pas structurées. Il n'existe pas de clé primaire, ni de contraintes d'unicité. Il y a donc un risque de générer des erreurs lorsqu'on utlise sqoop.

Utiliser une base postGreSQL
sudo cp /mnt/Partage/postgresql-9.4-1200-jdbc41.jar /usr/lib/sqoop/lib/
Réaliser un export

Pour exporter les données, on utilise la commande ci-dessous

cnx=jdbc:postgresql://$serveur:$port/$nombase
u=username
p=password
d=org.postgresql.Driver
sqoop export --connect $cnx --username $u --password $p –driver $d --table tailles --export-dir /user/tables_hive/tailles --fields-terminated-by '\;' --batch