ETL adalah sekumpulan proses yang harus dilalui dalam pembentukan data warehouse. Tujuan ETL adalah mengumpulkan, menyaring, mengolah dan menggabungkan datadata yang relevan dari berbagai sumber untuk disimpan ke dalam data warehouse. Proses ETL sendiri terdiri dari extracting, transforming, loading, Berikut adalah penjelasan dari tiap proses :
1. Extract
Extract adalah proses memilih dan mengambil data dari satu atau beberapa sumber dan membaca/mengakses data yang dipilih tersebut. Proses ini dapat menggunakan query, atau aplikasi ETL. Sebaiknya sebelum proses extract kita lakukan, akan lebih mudah jika user sudah mendefinisikan kebutuhan terhadap sumber data yang akan kita butuhkan.
2. Transform
Pada Proses ini data yang telah diambil pada proses extract akan dibersihkan dan mengubah data dari bentuk asli menjadi bentuk yang sesuai dengan kebutuhan data warehouse. Kendala yang biasanya terjadi pada proses transform adalah sulitnya menggabungkan data dari beberapa sistem yang harus dibersihkan sehingga data bersifat konsisten.
3. Load
Load adalah proses terakhir yang berfungsi untuk memasukkan data ke dalam target akhir, yaitu ke dalam data warehouse. Cara untuk memasukkan data adalah dengan menjalankan SQL script secara periodik.Pada proses ini akan mengubah data kedalam bentuk Dimensional Data Store agar format data cocok untuk diterapkan pada proses analisis dan telah terintegrasi dengan beberapa sumber data. Proses Load yang termasuk proses terakhir dalam ETL akan sampai ke berbagai macam output yang sesuai dengan skemanya, yaitu terdiri dari proses load-up data (lodupd), load-insert data (lodins), dan load bulk data (lodbld).
Data warehouse tidak mungkin ada tanpa adanya proses ETL karena Proses ETL merupakan suatu landasan dari sebuah data warehouse. Proses ETL ini sangat penting karena sangat berperan terhadap kualitas data dalam data warehouse, sehingga data warehouse nantinya dapat digunakan untuk keperluan business intelligence atau aktivitas analisis yang lain. Dikatakan Sebuah proses ETL berjalan dengan benar, jika pada proses itu melibatkan beberapa hal yaitu akan adanya proses mengekstraksi data dari sebuah sumber, mempertahankan kualitas data tersebut, menerapkan aturan-aturan standar, dan menyajikan data dalam berbagai bentuk, sehingga dapat digunakan dalam proses pengambilan keputusan
Sumber :www.softbless.com