Qu’est-ce qu’un processus ETL ?
ETL est l’acronyme d’Extract Transform Load, soit en français extraction, transformation et chargement. Il s’agit d’un processus d’intégration automatisé qui permet le transfert d’informations de bases de données différentes vers un entrepôt de données unifiés. Cette intergiciel permet aux données brutes d’être :
- analysées et extraites de leur emplacement source ;
- transformées en un format qui peut répondre à des besoins opérationnels ;
- chargées vers une Data Warehouse "(entrepôt de données)”.
L’ETL peut être comparé à un service de logistique qui récupère des marchandises chez différents producteurs, les re-conditionne dans des colis unifiés et les range dans un entrepôt accessible par tous les producteurs. Le flux est bidirectionnel, car il chemine dans les deux sens. La finalité ? La donnée transformée est qualitative et exploitable.
Différents outils ETL utilisent les données Akuiteo en passant par les API (Application Programming Interface). Ils permettent ainsi d’interfacer Akuiteo à plusieurs outils tiers. Talend en est un exemple concret.
L’ETL en 4 étapes
L’ETL permet quatre actions principales.
L’extraction des données
L'ETL permet l'extraction, l’identification et le prélèvement des données à partir de différents emplacements : fichiers, feuilles de calcul, systèmes de bases de données, applications… Concernant l’extraction des données, quelques informations sont importantes à retenir :
- en fonction des capacités du logiciel source – les ressources du système d'exploitation par exemple –, certaines transformations peuvent avoir lieu pendant le processus d'extraction ;
- selon le système source, la taille des données extraites peut aller de quelques centaines de kilo-octets à plusieurs gigaoctets ;
- la période nécessaire entre deux extractions peut être comprise entre plusieurs jours et quelques heures.
Le transport des données
Une fois l’extraction terminée, les données sont physiquement copiées, vers un système cible ou vers un système intermédiaire, afin d’être traitées ultérieurement. Selon le choix du mode de déplacement, la transformation des données peut se faire pendant le processus de transport.
La transformation des données
L’étape suivante consiste à transformer les données. Cette action peut inclure différentes opérations comme le nettoyage, l’assemblage et la validation des données. Une fois les données extraites, elles doivent être physiquement transportées vers la destination cible et converties dans le format approprié à leur traitement.
Le chargement des données
Le processus ETL se clôt par le chargement des données transformées vers la destination cible, c’est-à-dire une base de données ou un Data Warehouse. Pour charger les données dans un entrepôt, deux solutions sont possibles :
- le chargement complet ;
- le chargement incrémental.
Pourquoi utiliser le processus ETL ?
Le processus ETL est principalement destiné aux entreprises et aux sociétés qui ont besoin de construire et maintenir des Data Warehouse complexes, afin de créer des reportings de Business Intelligence par exemple ; mais il peut également être utilisé à plus petite échelle. En effet, ce processus permet aux entreprises de profiter d’une vue consolidée des données qui les conduit à prendre des décisions commerciales éclairées.
Au sein d’une organisation, la méthode d’intégration des données, en provenance de multiples systèmes et sources, reste à ce jour un élément central de la boîte à outils d’intégration de données.
Le processus ETL permet au client d’être autonome dans la construction des flux, mais également dans la transcodification. Le client gère lui-même, sans nécessité de solliciter l’éditeur. Mais attention, une dépense interne et un certain degré d’autonomie restent indispensables pour faire progresser le système lors de la possible évolution du logiciel.