Da qualche anno si sente sempre più spesso parlare di ETL, tipicamente parlando di progetti di Business Intelligence. Molte aziende li stanno adottando, generalmente spinte dall’ufficio IT.
ETL è l'acronimo di Extraction Transformation and Loading (Estrazione, Trasformazione e Caricamento). In pratica è lo strumento per caricare i dati in un sistema di sintesi estraendoli da fonti eterogenee, che possono essere basi di dati transazionali, stringhe di testo o altre fonti.
In origine nascono come strumento a supporto dei sistemi di Business Intelligence e/o di DataWarehouse:
* Extract: estrazione dai sistemi sorgente dei dati necessari per supportare i processi decisionali
* Transform: trasformazione dei dati in informazione, tramite processi di verifica, pulizia ed arricchimento
* Load: salvataggio delle informazioni in formati eterogenei
Oltre ad estrarli, questo strumento espleta funzioni di:
- pulizia,
- ordinamento,
- raggruppamento,
- selezione,
- normalizzazione,
- traduzione,
- raggruppamento.
Il problema che si incontra nel trasferire dati è che questi si trovano sparsi su sistemi eterogenei, quindi è necessario leggere i dati dalla loro fonte, ripulirli e formattarli in modo uniforme (processo detto di consolidamento dei dati), e poi caricarli nel repository di destinazione per l'uso.
Difficoltà per ottenere un´implementazione efficiente ed affidabile dei processi ETL.
* I volumi di dati crescono in maniera esponenziale, e i processi ETL devono elaborare grandi quantità di dati (prodotti venduti, chiamate telefoniche, transazioni bancarie.).
Alcuni sistemi BI raramente vengono aggiornati incrementalmente mentre altri richiedono un caricamento completo ad ogni iterazione.
* Con l´aumento della complessità dei sistemi informatici, anche la disparità delle sorgenti aumenta. I processi ETL richiedono una connettività di vasta portata per i pacchetti di applicazioni (ERP, CRM, ecc.), database, mainframe, file, Servizi Web, ecc.
* Le strutture e le applicazioni di Business Intelligence comprendono data warehouse, data mart, applicazioni OLAP per l´analisi, il reporting, il dashboarding, lo scorecarding, ecc. Tutte queste strutture target hanno diversi requisiti di trasformazione dei dati e diverse latenze.
* Le trasformazioni coinvolte nei processi ETL possono essere altamente complesse. I dati devono essere aggregati, sottoposti a parsing, calcolati, elaborati statisticamente, ecc. Le trasformazioni specifiche BI sono anch´esse necessarie, come lo Slowly Changing Dimensions.
* Mentre la BI tende alla simultaneità real-time, i data warehouse e data mart devono essere aggiornati più spesso e le finestre di tempo del caricamento diventano sempre più brevi.
Di seguito vengono riportati alcuno tool ETL:
- SmartDB Workbench
- DataStudio
- Integrator
- Informatica PowerCenter
- Datastage IBM
- SSIS Microsoft
- I-service IngeniumTechnology
- Scriptella ETL
- Benetl
- Oracle Data Integration Suite
- Kettle Pentaho Data Integration

Nessun commento:
Posta un commento