Verschillen

Dit geeft de verschillen weer tussen de geselecteerde revisie en de huidige revisie van de pagina.

Link naar deze vergelijking

nl:content:kb:scope_02:etl [2015/05/28 10:25]
nl:content:kb:scope_02:etl [2015/05/28 10:25] (huidige)
Regel 1: Regel 1:
 +/*live*/
 +====== Extractie, Transformatie en Laden (ETL) ======
 +
 +<WRAP left round ms>
 +ETL staat voor Extractie, Transformatie en Laden. Gegevens worden uit een registratiedatabase geëxtraheerd,​ daarna getransformeerd en tenslotte geladen in een speciaal voor informatieverschaffing aangelegde database. Om verschillende redenen is dit zeer gewenst of, vaak zelfs, noodzakelijk.\\
 +\\
 +ETL is vaak een onderdeel van een data warehouse traject.
 +</​WRAP>​
 +
 +====== Hoe werkt ETL? ======
 +
 +Bij **E**xtractie van brongegevens worden deze veelal in een tijdelijke database geladen om te worden ge**T**ransformeerd waarna het resultaat uiteindelijk wordt ge**L**aden in een [[:​nl:​content:​kb:​scope_02:​data_warehousing|Data Warehouse]]. Vaak vindt tijdens het Transformatiegedeelte van een ETL-proces een opschoningslag en een verrijkingslag plaats van de gegevens.
 +
 +Grafisch kan het proces als volgt voorgesteld worden:
 +
 +{{gallery>​all_nl:​etl_example.gif?​599x599&​850X850&​lightbox}}
 +
 +Bron: [[http://​www.ibm.com/​developerworks/​data/​library/​techarticle/​dm-0508gong|Deliver an effective and flexible data warehouse solution, Part 3: Design and implement a warehouse ETL process]]
 +
 +====== Een noodzakelijk kwaad ======
 +Vaak is het extraheren en transformeren van gegevens uit een bepaald bronsysteem om deze vervolgens te laden in een voor rapportage bedoeld opslagsysteem een noodzakelijk kwaad.
 +
 +De redenen zijn vaak één of meer van de volgende:
 +  * Het bronsysteem is vaak een registratiesysteem waarbij het benaderen van de onderliggende database de prestatie van het registratiesysteem ernstig kan ondermijnen.
 +  * Het bronsysteem bevat erg veel onnodige details.
 +  * In het bronsysteem zitten veel vervuilde gegevens.
 +  * Voor de integratie met andere gegevenssets dienen de gegevens uit het bronsysteem eerst geconverteerd en/of getransformeerd worden.
 + 
 +
 +====== Tools ======
 +
 +Twee veelgebruikte ETL tools zijn:
 +  * Oracle Warehouse builder
 +  * Microsoft SQL Server - Integration Services
 +
 +Voor de eeuwwisseling waren volwassen ETL tools nog erg duur. Tegenwoordig zijn er zelfs open-source varianten zoals [[https://​www.talend.com/​products/​talend-open-studio|Talend Open Studio]]. Talend Open Studio genereert Perl scripts of Java code welke stand-alone op vrijwel elk denkbaar platform is te implementeren.
 +
 +Voor een ETL-demonstratie bekijk een [[https://​www.youtube.com/​watch?​v=7kghhtfRBZw|demo van Talend Open Studio]]. De manier waarop deze tool werkt is illustratief voor de meeste van dit soort tools.
 +
 +====== Vraag of opmerking ======
 +[[nl:​composite:​contact|Ik heb een vraag of opmerking over de informatie op deze pagina.]]