venerdì 12 giugno 2009

ETL



Da qualche anno si sente sempre più spesso parlare di ETL, tipicamente parlando di progetti di Business Intelligence. Molte aziende li stanno adottando, generalmente spinte dall’ufficio IT.
ETL è l'acronimo di Extraction Transformation and Loading (Estrazione, Trasformazione e Caricamento). In pratica è lo strumento per caricare i dati in un sistema di sintesi estraendoli da fonti eterogenee, che possono essere basi di dati transazionali, stringhe di testo o altre fonti.
In origine nascono come strumento a supporto dei sistemi di Business Intelligence e/o di DataWarehouse:

* Extract: estrazione dai sistemi sorgente dei dati necessari per supportare i processi decisionali
* Transform: trasformazione dei dati in informazione, tramite processi di verifica, pulizia ed arricchimento
* Load: salvataggio delle informazioni in formati eterogenei

Oltre ad estrarli, questo strumento espleta funzioni di:
  • pulizia,

  • ordinamento,

  • raggruppamento,

  • selezione,

  • normalizzazione,

  • traduzione,

  • raggruppamento.




Il problema che si incontra nel trasferire dati è che questi si trovano sparsi su sistemi eterogenei, quindi è necessario leggere i dati dalla loro fonte, ripulirli e formattarli in modo uniforme (processo detto di consolidamento dei dati), e poi caricarli nel repository di destinazione per l'uso.

Difficoltà per ottenere un´implementazione efficiente ed affidabile dei processi ETL.

* I volumi di dati crescono in maniera esponenziale, e i processi ETL devono elaborare grandi quantità di dati (prodotti venduti, chiamate telefoniche, transazioni bancarie.).
Alcuni sistemi BI raramente vengono aggiornati incrementalmente mentre altri richiedono un caricamento completo ad ogni iterazione.
* Con l´aumento della complessità dei sistemi informatici, anche la disparità delle sorgenti aumenta. I processi ETL richiedono una connettività di vasta portata per i pacchetti di applicazioni (ERP, CRM, ecc.), database, mainframe, file, Servizi Web, ecc.
* Le strutture e le applicazioni di Business Intelligence comprendono data warehouse, data mart, applicazioni OLAP per l´analisi, il reporting, il dashboarding, lo scorecarding, ecc. Tutte queste strutture target hanno diversi requisiti di trasformazione dei dati e diverse latenze.
* Le trasformazioni coinvolte nei processi ETL possono essere altamente complesse. I dati devono essere aggregati, sottoposti a parsing, calcolati, elaborati statisticamente, ecc. Le trasformazioni specifiche BI sono anch´esse necessarie, come lo Slowly Changing Dimensions.
* Mentre la BI tende alla simultaneità real-time, i data warehouse e data mart devono essere aggiornati più spesso e le finestre di tempo del caricamento diventano sempre più brevi.

Di seguito vengono riportati alcuno tool ETL:

  • SmartDB Workbench
  • DataStudio
  • Integrator
  • Informatica PowerCenter
  • Datastage IBM
  • SSIS Microsoft
  • I-service IngeniumTechnology
  • Scriptella ETL
  • Benetl
  • Oracle Data Integration Suite
  • Kettle Pentaho Data Integration

Nessun commento:

Posta un commento