MODEL YANG DI USULKAN UNTUK PROSES ETL
DATA WAREHOUSE
Latar Belakang
Extraction–transformation–loading (ETL) ialah sebuah perangkat lunak yang bertanggung jawab untuk ekstraksi data dari beberapa sumber, pembersihan, kustomisasi, reformatting, integrasi, dan penyisipan ke data warehouse. Membangun data warehouse membutuhkan fokus pada pemahaman tiga bidang utama: daerah sumber, daerah tujuan dan pemetaan daerah (ETL proses). Daerah sumber memiliki standar model seperti diagram hubungan entitas, dan daerah tujuan memiliki standar model seperti skema bintang, tetapi pemetaan daerah tidak memiliki model standar sampai sekarang. Proses ETL. Penelitian di bidang pemodelan proses ETL bisa dikategorikan menjadi tiga pendekatan utama: Modeling berdasarkan pemetaan ekspresi dan pedoman, pemodelan berdasarkan konsep, konstruksi, dan pemodelan berdasarkan UML lingkungan.
Permasalahan
Pemodelan Extraction–transformation–loading (ETL) dalam membangun suatu projek data warehouse belum mengacu pada 3 kategori pemodelan yaitu modeling berdasarkan pemetaan ekspresi dan pedoman, pemodelan berdasarkan konsep, konstruksi, dan pemodelan berdasarkan UML lingkungan.
Tujuan
Mengusulkan model konseptual untuk digunakan dalam pemodelan berbagai proses ETL dan menutupi keterbatasan proyek-proyek penelitian sebelumnya. Model yang diusulkan akan digunakan untuk desain ETL skenario, dan dokumen, menyesuaikan, dan menyederhanakan pelacakan mapping antara atribut sumber data dan yang sesuai dalam data warehouse
I. PEMBAHASAN
Data Warehouse adalah koleksi teknologi yang bertujuan untuk memungkinkan dalam pengambilan keputusan dapat lebih baik dan lebih cepat. Arsitektur data warehouse generik yang terdiri dari tiga lapisan (sumber data, DSA, dan gudang data primer) (Inmon, 2002; Vassiliadis, 2000). Meskipun ETL proses daerah sangat penting, ia memiliki penelitian kecil. Ini karena kesulitan dan kurangnya formal model untuk mewakili ETL aktivitas kejahatan yang memetakan data yang masuk dari DSs berbeda harus dalam format yang sesuai untuk loading ke target DW atau DM (Kimball dan Caserta, 2004; Demarest, 1997; Oracle Corp, 2001; Di mon, 1997).
Konsep Model ETL
Pemodelan kerangka ETL umum ditunjukkan dalam gambar 1. Data diekstrak dari sumber data yang berbeda, dan kemudian dialihkan DSA mana ia berubah dan dibersihkan kemudian dimuat ke data warehouse. Sumber target mungkin memiliki banyak format struktur data sebagai flat file, set data XML, tabel relasional, sumber-sumber non-relasional, web log sumber, sys-tems warisan dan spreadsheet.
Fase ETL
Proses selama ETL, data diekstraksi dari OLTP database, berubah untuk mencocokkan skema data warehouse, dan dimuat ke dalam database warehouse (Berson dan Smith, 1997; Moss, 2005). Sebagai bisnis perubahan sistem DW perlu mengubah-untuk menjaga nilai sebagai alat bagi pembuat keputusan, karena ETL juga berubah dan berkembang. Proses ETL harus dirancang untuk kemudahan modifikasi. Sistem ELT harus mengaju pada 3 langkah yaitu; extraction, transformation, and loading:
Ekstraksi
Langkah pertama dalam setiap skenario ETL adalah data ekstraksi. Tahap ekstraksi ETL bertanggung jawab untuk mengekstrak data dari sistem sumber. Masing-masing sumber data telah menetapkan berbeda karakter yang perlu dikelola untuk secara efektif mengekstrak data untuk proses ETL.
Gambar 1 a kerangka umum ETL proses.
Selama mengekstrak data dari sumber data yang berbeda, harus menyadari (a) menggunakan ODBC\JDBC driver koneksi ke database sumber, (b) memahami struktur data sumber, dan (c) tahu bagaimana menangani sumber dengan sifat yang berbeda seperti mainframe. Proses ekstraksi terdiri dari dua tahap, awal ekstraksi dan diubah data ekstraksi. Di awal proses ekstraksi (Kimball et al. 1998), itu adalah pertama kalinya untuk mendapatkan data dari sumber operasional yang berbeda yang akan dimuat ke data warehouse. Proses ini dilakukan hanya satu kali. Ekstraksi inkremental memanggil mengubah data capture (CDC) dimana proses ETL menyegarkan DW dengan data yang diubah dan ditambah sejak terakhir ekstraksi.
transformasi
langkah kedua dalam setiap skenario ETL adalah transformasi data. Langkah transformasi cenderung membuat pembersihan beberapa dan pembentuk pada data yang masuk untuk memperoleh data yang akurat yang benar, lengkap, konsisten, dan jelas. Proses ini meliputi data cleaning, transformasi, dan integrasi.
loading
Loading data untuk target multidimensi struktur adalah langkah terakhir ETL. Dalam langkah ini, diekstrak dan mengubah data ditulis ke dalam struktur dimensi sebenarnya diakses oleh pengguna akhir dan aplikasi sistem. Memuat langkah mencakup memuat tabel dimensi dan pemuatan fakta tabel.
model ETL proses
Bagian ini akan menavigasi melalui upaya yang dilakukan untuk merancang konsep ETL proses. Meskipun proses ETL sangat penting dalam membangun dan memelihara sistem DW, jelas ada kurangnya model standar yang dapat digunakan untuk mewakili skenario ETL. Penelitian di bidang pemodelan proses ETL bisa dikategorikan menjadi tiga pendekatan utama:
1. pemodelan berdasarkan pemetaan ekspresi dan pedoman.
2.Modeling berdasarkan konseptual konstruksi.
3.Modeling berdasarkan UML lingkungan.
Dalam berikut, deskripsi singkat tentang setiap pendekatan disajikan
pemodelan ETL proses menggunakan pemetaan ekspresi
Rifaieh dan Benharkat (2002) telah ditetapkan model yang meliputi berbagai jenis pemetaan ekspresi. Dalam pendekatan mereka, query yang digunakan untuk mencapai proses pergudangan. Permintaan akan digunakan menunjukkan mapping antara sumber dan data sasaran; dengan demikian, memungkinkan DBMS memainkan peran diperluas sebagai mesin pembentukan-trans data serta penyimpanan data. Efisiensi query berbasis data pergudangan peranggkat ETL tanpa menyarankan model grafis apapun. Ini menggambarkan sebuah generator query (DW) pengolahan data mudah dan lebih efisien.
pemetaan pedoman
pemetaan pedoman berarti set informasi yang ditentukan oleh para pengembang untuk mencapa pemetaan antara atribut dari dua skema. Secara tradisional, pedoman yang ditetapkan secara manual selama sistem pelaksaan. Dalam kasus terbaik, mereka akan disimpan sebagai dokumen kertas. Metode ini sangat sangat lemah di dalam pemeliharaan serta evolusi sistem. Untuk memperbarui pemetaan atribut dalam sistem, salah satu harus mencakup pembaruan untuk pedoman dokumen paper juga. Dengan demikian, hal ini sangat sulit untuk menjaga tugas-tugas seperti terutama dengan simultan pembaruan oleh pengguna yang berbeda.
3.1.2. pemetaan ekspresi
pemetaan ekspresi atribut adalah informasi yang diperlukan untuk mengenali cara atribut target yang dibuat dari atribut sumber. Contoh aplikasi pemetaan ekspresi yang digunakan adalah sebagai berikut:
skema pemetaan (Madhavan et al., 2001): untuk pemetaan skema database, ekspresi pemetaan diperlukan untuk menentukan hubungan antara unsur-unsur yang cocok.
Data warehouse tool (ETL) (Staudt et al., 1999): mencakup proses transformasi yang mana surat-menyurat antara sumber data dan data sasaran DW didefinisikan.
EDI pesan pemetaan: kebutuhan pesan kompleks penterjemahan yang sanggat menarik diperlukan untuk EDI, dimana data harus berubah dari satu format pesan EDI menjadi lain.
EAI (integrasi aplikasi perusahaan): integrasi sistem informasi dan aplikasi kebutuhan middleware untuk mengelola proses ini (Stonebraker dan Hellerstein, 2001). Ini mencakup aturan manajemen dari sebuah perusahaan aplikasi, data menyebar aturan bersangkutan aplikasi dan data konversi aturan. Memang, data konversi aturan mendefinisikan ekspresi pemetaan data terintegrasi.
contoh pemetaan ekspresi
beberapa contoh ekspresi pemetaan yang diidentifikasi dari jenis aplikasi yang ditampilkan sebagai berikut:
Break-down/rangkaian: dalam contoh ini nilai dari field didirikan dengan menghancurkan nilai sumber dan dengan menggabungkan dengan nilai lain, seperti ditunjukkan pada gambar 2.
Bersyarat pemetaan: kadang-kadang nilai target attri-bute tergantung pada nilai atribut lain. Di ujian-ple, jika X 1 maka Y A B Y lain, seperti yang ditunjukkan dalam gambar 3. Lebih tentang pemetaan ekspresi aturan dan notasi ditemukan di Jarke et al. (2003) dan Miller et al. (2000).
Gambar 2 Contoh 1: Break-down/concatenation (Jarke et al., 2003).
3.2. pemodelan ETL proses menggunakan konseptual konstruksi
Vassiliadis et al. (2002a, 2003, 2005) Mereka memperkenalkan suatu kerangka kerja untuk pemodelan ETL kegiatan. Kerangka kerja mereka berisi tiga lapisan, seperti ditunjukkan pada gambar 4.Lapisan
lapisan bawah yaitu; skema, melibatkan ETL skenario yang spesifik. Semua entitas lapisan skema adalah contoh dari kelas tipe data, fungsi tipe, dasar kegiatan, recordset dan hubungan.
Lapisan lebih tinggi yaitu; metamodel lapisan melibatkan kelas tersebut. Hubungan antara metamodel dan lapisan skema dicapai melalui hubungan Instansiasi. Lapisan metamodel mengimplementasikan keumuman tersebut: kelas lima yang di volved dalam lapisan metamodel cukup generik untuk model setiap skenario ETL, melalui Instansiasi sesuai.
Lapisan tengah adalah lapisan template. Konstruksi dalam lapisan template juga meta-kelas,
Gambar 3 contoh 2: Bersyarat pemetaan (Jarke et al., 2003).
Kelas lapisan template mewakili spesialisasi (subclass) kelas generik lapisan metamodel (digambarkan sebagai' hubungan). Setelah menentukan kerangka kerja, para penulis notasi grafis dan metamodel model grafis yang diusulkan mereka seperti yang ditunjukkan pada gambar 5. Kemudian, mereka detail dan secara resmi menetapkan semua entitas dari metamodel:
à Tipe data. Setiap tipe data T ditandai dengan nama domain yang adalah seperangkat nilai-nilai yang dihitung. Nilai-nilai domain juga dirujuk sebagai konstanta.
à Recordsets. Recordset ditandai dengan namanya, skema log-ical (struktur recordset) dan extensinya fisik (yaitu, satu set yang terbatas catatan di bawah skema recordset) yang merupakan nilai catatan sebenarnya. Setiap data struktur-saan dapat diperlakukan sebagai seperangkat '' rekor '' asalkan ada sarana untuk Logis merestrukturisasinya kembali ke flat, mengetik catatan skema.
à Fungsi. Jenis fungsi terdiri dari nama daftar terbatas parameter data jenis dan tipe data kembali tunggal. Func-tion adalah instance dari jenis fungsi.
Gambar 4 metamodel untuk entitas Logis lingkungan ETL (Vassiliadis et al., 2003).
-Hubungan. Menggambarkan mengikuti data dari sumber ke target.
Kemudian penulis menggunakan model mereka grafis mewakili ETL proses dalam sebuah contoh memotivasi. Seperti ditunjukkan pada gambar 6, sumber data dua (S1.partsupp dan S2.partsupp) yang digunakan untuk membangun gudang data target (DW.partsupp). Model concep-tual Vassiliadis et al. (2002a) dilengkapi dalam Vassiliadis et al. (2002b, 2003) dan Simitsis (2003) dengan desain Logis ETL memproses sebagai alur kerja data-sentris. Dalam Vassiliadis et al. (2003) penulis menggambarkan kerangka untuk spesifikasi deklaratif ETL skenario. Mereka membahas masalah pelaksanaan dan alat grafis 'ARKTOS II' yang memfasilitasi desain skenario ETL, berdasarkan pada model mereka. Dalam Vassiliadis et al. (2002b) penulis model skenario ETL sebagai grafik yang mereka sebut arsitektur grafik dan mereka memperkenalkan beberapa notasi untuk grafik ini. Mereka memperkenalkan pentingnya metrik untuk mengukur tingkat mana entitas terikat satu sama lain. Dalam Simitsis (2003) penulis berfokus pada optimasi proses ETL, untuk meminimalkan waktu pelaksanaan proses ETL. Mengenai data pemetaan, di Dobre et al. (2003) penulis membahas isu-isu re-laranangan dan saksi untuk pemetaan data dalam integrasi data, dan satu set pemetaan operator diperkenalkan dan klasifikasi permasalahan pemetaan kasus disajikan, seperti ditunjukkan pada gambar 7. Namun, tidak ada representasi grafis data pemetaan skenario, oleh karena itu, sangat sulit untuk digunakan dalam proyek-proyek dunia nyata. Di Bernstein dan Rahm (2000) kerangka kerja untuk pemetaan antara model-model (objects) yang diusulkan.
Model adalah dimanipulasi oleh peran operasi tingkat tinggi termasuk:
Match-membuat sebuah pemetaan antara dua model.
Menerapkan fungsi-menerapkan fungsi tertentu
Gambar 7 sampel pemetaan operator
untuk semua objek dalam model. Union, persimpangan, perbedaan-diterapkan untuk serangkaian obyek.
Menghapus – Hapus semua objek dalam model.
Insert, Update-diterapkan ke objek individu dalam model.
Pemodelan berdasarkan UML lingkungan
Lujan-Mora et al. (2004) penulis memperkenalkan model mereka yang didasarkan pada UML (unified modeling language) notasi. Dalam upaya mereka untuk memberikan pemandangan pelengkap artefak desain detail tingkat sulit, kerangka didasarkan pada pendekatan berprinsip dalam penggunaan UML paket, untuk memungkinkan meluncur masuk dan keluar desain skenario.
Kerangka
arsitektur gudang data biasanya digambarkan sebagai berbagai lapisan data di mana data dari satu lapisan berasal dari data lapisan sebelumnya (Lujan-Mora dan Trujillo, 2003). Setelah itu, pengembangan DW dapat disusun dalam kerangka terintegrasi dengan lima tahap
Gambar 6 Motivating contoh untuk model konseptual dalam Vassiliadis et al. (2002a).
dan tiga tingkat yang mendefinisikan berbeda diagram untuk DW model, seperti yang dijelaskan di bawah ini:
- fase: ada lima tahap dalam definisi DW:
-sumber: mendefinisikan sumber data DW, seperti OLTP sistem, sumber data eksternal.
-Integrasi: mendefinisikan mapping antara sumber data dan gudang data.
-Data warehouse: mendefinisikan struktur data warehouse.
-Kustomisasi: mendefinisikan mapping antara gudang data dan struktur klien.
-Klien: itu mendefinisikan struktur khusus yang digunakan oleh cli-ents untuk mengakses data warehouse, seperti data Minning atau aplikasi OLAP.
-Tingkat: setiap tahap dapat dianalisis di tiga tingkat atau perspektif:
-konseptual: mendefinisikan gudang data dari sudut pandang konseptual.
-Logis: Alamat Logis aspek desain DW, sebagai definisi proses ETL.
-Fisik: mendefinisikan aspek fisik DW, seperti penyimpanan struktur logis dalam disk berbeda, atau konfigurasi database server yang mendukung DW.
Atribut sebagai kelas model elemen (FCME)
Dalam ERD model dan UML, atribut yang tertanam dalam definisi unsur mereka terdiri dari '''' (entitas dalam ER) atau kelas di UML. Untuk memungkinkan atribut memainkan peran yang sama dalam kasus tertentu, penulis mengusulkan representasi atribut sebagai FCME di UML. Dalam diagram UML kelas, dua jenis model elemen diperlakukan sebagai FCME. Kelas, sebagai abstrak representasi dunia nyata entitas secara alami ditemukan di tengah upaya pemodelan. Associ-ations juga dapat FCME, disebut Asosiasi kelas. Kelas Asosiasi dapat berisi atribut atau dapat dihubungkan ke kelas-kelas lain. Namun, hal yang sama tidak mungkin dengan attri-butes.Kendala berikut berlaku untuk definisi yang benar dari kelas atribut seperti dalam perkembangan stereotip Attribute:
-ciri-ciri fisik Konvensi: nama kelas atribut adalah nama kelas wadah terkait, diikuti oleh sebuah titik dan nama atribut.
– Fitur: kelas atribut dapat berisi atribut maupun metode.
Diagram atribut kelas adalah diagram UML kelas reguler diperpanjang dengan {{Attribut}} kelas dan {{Contain}} hubungan. Dalam konteks gudang data, hubungan, melibatkan tiga pihak Logis: (a) penyedia entitas (skema, Meja, atau atribut), bertanggung jawab untuk menghasilkan data menjadi lebih lanjut disebarkan, (b) konsumen, yang menerima data dari penyedia dan (c) menengah pencocokan yang melibatkan cara pemetaan dilakukan, bersama dengan transformasi apapun dan penyaringan. Proposal berlapis yang terdiri dari empat tingkat seperti ditunjukkan pada gambar 8:
1.Database tingkat (atau 0). Pada tingkat ini, setiap skema DW lingkungan (misalnya, sumber data pada tingkat konseptual di SCS 'sumber konseptual skema', konseptual skema DW di DWCS 'data gudang konseptual skema', dll) diwakili sebagai paket (Lujan-Mora dan Trujillo, 2003; Trujillo dan Lujan-Mora, 2003). Pemetaan antara skema berbeda yang meniru dalam paket tunggal pemetaan, encapsulating semua pemetaan tingkat rendah antara berbagai skema.
Gambar 8 Data pemetaan tingkat (Lujan-Mora et al., 2004).
2.Dataflowlevel (atau tingkat 1). Tingkat ini menggambarkan data real-tionship antara tabel individu sumber skema terlibat terhadap target masing-masing di DW. Practi-cally, sebuah diagram pemetaan di database tingkat diperbesar ke pemetaan lebih rinci diagram, masing-masing captur-ing bagaimana tabel sasaran berkaitan sumber tabel dalam hal data.
3.Meja tingkat (atau 2). Sedangkan diagram pemetaan tingkat dataflow menggambarkan data hubungan antara sumber dan target menggunakan paket tunggal, pemetaan dia-gram pada tingkat Meja, rincian semua transfor-tepat menengah dan cek yang berlangsung selama aliran ini.
4.Attributelevel (atau tingkat 3). Pada tingkat ini, diagram pemetaan melibatkan menangkap antar atribut pemetaan. Practi-cally, ini berarti bahwa diagram tabel diperbesar di dan pemetaan penyedia untuk konsumen atribut tidak dilacak, bersama dengan transformasi setiap menengah dan pembersihan.
Pada bagian paling kiri dari gambar 8, hubungan sederhana antara DWCS dan SCS : ini ditangkap oleh satu data pemetaan paket dan elemen desain tiga merupakan data pemetaan diagram database tingkat (atau tingkat 0). Dengan asumsi bahwa ada tiga tabel tertentu di DW yang diisi, data ini khusus pemetaan paket abstrak fakta bahwa ada tiga utama skenario untuk penduduk DW, satu untuk masing-masing tabel. Di tingkat dataflow (atau tingkat 1) kerangka kami, data real-tionships antara sumber dan target dalam konteks masing-masing skenario. Jika kita zoom in salah satu skenario ini, misalnya, pemetaan 1, kita dapat mengamati dengan kekhasan dalam hal data transfor-koordinasi dan pembersihan: data source 1 ditransformasi dalam dua langkah (yaitu, mereka telah menjalani dua berbeda transforma-tions), seperti yang ditunjukkan pada gambar 8. Perhatikan juga bahwa ada data antar merenungkannya toko dipekerjakan, terus output dari transformasi pertama (langkah 1), sebelum ditanggungkan kedua satu (langkah 2). Akhirnya, pada bagian kanan bawah dari arah. 8, cara atribut yang dipetakan ke satu sama lain untuk sumber data toko 1 dan intermediate digambarkan. Mari kita menunjukkan bahwa dalam kasus kita adalah model data warehouse yang kompleks dan besar, transformasi atribut dimodelkan pada level 3 tersembunyi di sebuah definisi paket.
I. PENELITIAN
4. ETL diusulkan proses model (EMD)
Konsep ETL proses yang digunakan untuk memetakan data dari sumber-sumber untuk target data warehouse skema, kita belajar proyek penelitian sebelumnya, membuat beberapa integrasi, dan menambahkan beberapa ekstensi untuk pendekatan yang disebutkan di atas. Entitas pemetaan diagram (EMD) sebagai model konseptual baru untuk pemodelan ETL proses skenario. Model usulan kami terutama mengikuti pendekatan pemodelan berdasarkan konstruksi con-ceptual. Model yang diusulkan akan menggenapi enam memerlukan nyata (El Bastawesy et al, 2005; Maier, 2004; Arya et al., 2006):
1. mendukung integrasi sumber data.
2. kuat dalam mengubah sumber data
3. mendukung transformasi yang fleksibel.
4. dapat dengan mudah digunakan di lingkungan cocok implementasi
5. cukup lengkap untuk menangani berbagai ekstraksi, trans-pembentukan dan operasi pemuatan
6. sederhana dalam menciptakan dan memelihara.
Dalam bagian ini, kami akan menjelaskan kerangka EMD, EMD metamodel, primitif EMD konstruksi, dan akhirnya kami akan memberikan contoh demonstrasi. Perbandingan dan evalua-tion pendekatan yang sebelumnya terhadap kami model yang diusulkan akan disajikan dalam Bagian 5.
4.1. EMD kerangka
gambar 9 menunjukkan kerangka umum entitas diusulkan pemetaan diagram.
– Di bagian sumber data: Sumber data mungkin terstruktur database atau sumber-sumber non-terstruktur. Dalam kasus terstruktur sumber; partisi database dan tabel partisi dan atribut digunakan secara langsung sebagai sumber dasar, dan dalam hal sumber bebas-terstruktur; langkah konversi yang harus diterapkan pertama untuk mengkonversi bebas-terstruktur sumber ke dalam struktur salah satu (tabel dan atributnya). Pembungkus adalah program khusus rutinitas yang secara otomatis ekstrak data dari sumber data yang berbeda dengan
gambar 9 rangka umum EMD.
format yang berbeda dan mengkonversi informasi ke dalam format struktur-tured. Tugas khas bungkus adalah: (a) fetching data dari sumber daya yang terpencil, (b) mencari, mengenali dan mengekstrak data tertentu, dan (c) menyimpan data ini dalam format terstruktur yang sesuai untuk memungkinkan lebih lanjut manipulasi (Vassiliadis et al, 2005).
– Ekstraksi: selama proses ekstraksi beberapa tabel sementara dapat dibuat untuk menahan hasil konversi sumber bebas-terstruktur ke dalam database. Ekstraksi awal terjadi ketika skenario ETL dieksekusi untuk pertama kalinya ketika ada data di data warehouse tujuan. Ekstraksi refresh berlangsung untuk data (perbedaan antara data lama di DW dan diperbarui data dalam sumber data). Ini berarti bahwa pengguna mungkin perlu untuk membangun model EMD dua untuk skenario ETL yang sama; satu untuk ekstraksi awal, dan yang lainnya untuk ekstraksi refresh menggunakan data lama di dalam tabel yang ditemukan di area stage.
– Di DW skema bagian: gudang skema tabel data (fakta atau dimensi) yang diambil. Pada dasarnya gudang data disimpan sebagai struktur-saan relasional bukan sebagai struktur multidimensi. Multidimen-sionality terjadi di Engine online analytical processing (OLAP).
-Di bagian pemetaan: fungsi transformasi perlu menarik. Operasi transformasi yang berlangsung pada data yang masuk dari kedua sumber dasar dan sumber tempo-rary di staging area. Beberapa transformasi oper-ations menyebabkan hasil sementara yang disimpan dalam tabel sementara di staging area.
-Staging area: wadah fisik yang berisi semua tem porary tabel dibuat selama proses ekstraksi atau dihasilkan dari fungsi Terapan transformasi.
-Loading: sebagai data mencapai format sesuai akhir, load elemen data terkait di destina- skema tion DW. Data dapat dimuat secara langsung sebagai hasil dari transformasi fungsi tertentu atau diambil dari tabel sementara yang diinginkan di staging area.
Pemberitahuan bahwa sumber data dan data gudang skema harus didefinisikan dengan jelas sebelum mulai menggambar EMD. Juga anak-anak panah arah menunjukkan bahwa pertama, sumber data diambil, setelah itu serangkaian transformasi diterapkan, dan kemudian data dimuat untuk tujuan data gudang skema.
4.2. EMD metamodel
EMD adalah model konseptual diusulkan untuk pemodelan proses ETL yang diperlukan untuk memetakan data dari sumber ke target data gudang skema. Gambar 10 menunjukkan arsitektur metamodel untuk model konseptual diusulkan EMD. Metamodel dari EMD diusulkan terdiri dari dua lapisan; lapisan pertama adalah lapisan abstraksi di mana lima Object (func-tion, data kontainer, entitas, hubungan, dan atribut) jelas didefinisikan. Objek dalam lapisan abstraksi adalah pemandangan tingkat tinggi bagian atau benda-benda yang dapat digunakan untuk menggambar sebuah skenario EMD.
Lapisan kedua adalah lapisan template yang merupakan perluasan ke lapisan abstraksi.
Hubungan antara lapisan abstraksi dan lapisan template dapat dianggap sebagai agregasi hubungan. Fungsi dapat atribut transformasi, entitas trans-formasi, UDF (fungsi ditetapkan pengguna), atau mengkonversi ke struktur (hubungan). Gambar 11 menunjukkan jenis fungsi transformasi yang dapat diterapkan ke sumber-sumber di EMD diusulkan.
Entitas transformasi adalah fungsi yang dapat diterapkan ke sumber tabel (misalnya duplikat eliminasi, union, dll.). Fungsi transformasi atribut yang dapat diterapkan ke dalam atribut sumber (misalnya untuk huruf, String, dll.). Fungsi ditetapkan pengguna (UDF) adalah fungsi apapun yang dapat ditambahkan oleh pengguna yang adalah pencipta skenario ETL (misalnya penyatuan menjadi-tween jenis unit).
Gambar 10 EMD metamodel.
Gambar 11 jenis transformasi di EMD.
Entitas dapat menjadi sumber tabel, tabel dimensi, atau tabel fakta. Sebuah hubungan mungkin merupakan extractor atau loader. Extractor mengekspresikan proses ekstraksi data dari
sumber dan loader mengekspresikan proses loading data ke tujuan akhir. Atribut mungkin kolom tabel atau bidang berkas non-terstruktur. Perlu disebutkan di sini bahwa pengguna EMD adalah desainer data warehouse atau ETL dengan penandatangan; ini berarti bahwa beberapa aturan primitif, keterbatasan, dan kendala disimpan dalam pikiran selama penggunaan yang berbeda bagian dari EMD, yaitu, operasi serikat akan diterapkan dengan sukses ketika tabel berpartisipasi memilik ijumlah yang sama dari atribut dengan tipe data yang sama untuk yang sesuai atribut.
4.3. Primitif dari EMD konstruksi
Set dasar konstruksi yang digunakan dalam entitas yang diusulkan diagram pemetaan ditunjukkan dalam Gambar. 12. Dalam bagian ini, beberapa penjelasan tentang penggunaan konstruksi yang diusulkan entitas diagram pemetaan akan diberikan, sebagai berikut: Hubungan loader: digunakan ketika data dipindahkan langsung dari elemen terakhir sumber (sumber yang sebenarnya atau satu sementara) ke elemen data sasaran.
Gambar 12 grafis konstruksi untuk EMD diusulkan.
operasi konversi menyimpan hasilnya ke dalam tabel sementara, sehingga operasi transformasi dapat diterapkan ke yang baru sumber sementara. Operasi transformasi entitas: jenis transformasitions biasanya menghasilkan entitas sementara. Ada stan- operator dard yang digunakan dalam konstruksi ini, Gambar. 11 (a) menunjukkan beberapa operator tersebut. Atribut operasi transformasi: operasi standar digunakan dengan konstruksi ini, Gambar. 11 (b) menunjukkan sampel ini operator. Pengguna didefinisikan function (UDF) sebagai operasi transformasi: pengguna dapat menggunakan operasinya ditetapkan, maka setiap jenis transformasi mation dapat ditambahkan, seperti konversi mata uang fungsional.Operasi konversi menyimpan hasilnya ke dalam tabel sementara, sehingga operasi transformasi dapat diterapkan ke yang baru sumber sementara. Operasi transformasi entitas: jenis transformasi tions biasanya menghasilkan entitas sementara. Ada standard yang digunakan dalam konstruksi ini,
Gambar. 11 (a) menunjukkan beberapa operator tersebut. Atribut operasi transformasi: operasi standar digunakan dengan konstruksi ini, Gambar. 11 (b) menunjukkan sampel ini operator.
Pengguna didefinisikan function (UDF) sebagai operasi transformasi: pengguna dapat menggunakan operasinya ditetapkan, maka setiap jenis transformasi mation dapat ditambahkan, seperti konversi mata uang fungsi
Gambar 13 relasional skema DS1 untuk buku-perintah database.
4.4. Demonstrasi contoh
Untuk menggambarkan penggunaan model grafis kami diusulkan, kami memperkenalkan contoh sederhana. Sebuah perusahaan ingin membangun data gudang untuk memantau proses penjualan dalam dua cabang. Sebuah data warehouse relasional dirancang untuk menangkap data penjualan dari dua sumber data yang telah ditetapkan. Penjelasan ini diagram adalah sebagai berikut:
DS1: mengacu pada sumber data pertama (buku-perintah database).
Gambar. 14. Sebuah data warehouse relasional dirancang untuk menangkap data penjualan dari dua sumber data yang telah ditetapkan.
Bintang skema dalam Gambar. 15 menunjukkan desain yang diusulkan data warehouse yang terdiri dari satu tabel fakta dan empat
Gambar. 16 menggambarkan diagram pemetaan entitas untuk membangun dimensi produk dari sumber data yang diinginkan, melewati melalui kegiatan ETL diperlukan.
DS2: mengacu pada sumber data kedua (produk-orderdatabase).
Ada dua entitas dari masing-masing sumber data yang partisipasipate dalam diagram ini: Book (BookID, booktitle, CategoryID)dan Kategori (CategoryID, CategoryName) dari yang pertama sumber data, dan Produk (ProductID, ProductName, Bran-DID) dan Merek (BrandID, CategoryName) dari kedua sumber data.DW1: mengacu pada skema data warehouse dimanaData akan dipindahkan, kita mungkin memiliki satu atau lebih skema DW,satu atau lebih data mart (DM) skema, atau kombinasi dariDW dan DM. Dim_Products adalah entitas dimensi yang ditemukan diDW1. Di tengah diagram, proses pemetaan yangdiwakili menggunakan serangkaian langkah-langkah transformasi; dimulai denganbergabung dengan operasi antara Book dan Kategori tabel, maka removing catatan berlebihan dengan menerapkan duplikat eliminasioperasi tion.Entitas Sementara (Temp1) dibuat untuk menangkap antar-memediasi Data yang dihasilkan dari operasi sebelumnya. Pemberitahuan bahwa data atribut Temp1.CategoryID dapat dimuatopsional dari DS1.Book.CategoryID atau DS1.Category.Cat-egoryID. Kegiatan yang sama berlangsung di situs lain yangberisi DS2 untuk menghasilkan tabel Temp2.Setelah itu, beberapa operasi transformasi atribut mengambiltempat sebelum pemuatan data ke data warehouse sasaran, beberapadari mereka yang digambarkan sebagai berikut: (+ +) adalah ditetapkan pengguna trans-operasi pembentukan diterapkan untuk Temp1.ProductID menambahkan 10,00,000 ke setiap nomor kode produk sebagai kebutuhan pengguna. Tipe data ProductID dan CategoryID diubah untuk tipe data string dengan menggunakan ToString (TS) operasi. Temp2 ta- ble ditransfer ke lokasi DS1 menggunakan file transfer protocol (FTP) operasi, maka operasi union (U) berjalan untuk menggabungkan
dua tabel. Hubungan loader terhubung ke produk- Nama dan CategoryName atribut berarti bahwa data dimuat dari kedua atribut untuk atribut yang sesuai mereka di DW tanpa transformasi apapun.
Sekarang kita dapat mengembangkan alat prototipe (bernama EMD Builder) untuk mencapai tugas-tugas berikut:
- Memperkenalkan alat untuk menggambar diagram pemetaan entitas skenario menggunakan palet kontrol grafis.
- Menerapkan seperangkat operasi transformasi.
- Mengubah model grafis untuk kode dengan menghasilkan SQL Script.
- Menghasilkan dokumen pemetaan menurut Kimball standar (Kimball dan Caserta, 2004).
- Pelaksana skenario EMD pada sumber data untuk menerapkan ekstraksi, dan operasi transformasi, maka loading data ke skema sasaran DW.
- Kode dari dapat ditulis dalam C # atau JAVA object-oriented bahasa pemrograman dan database rasional manajemen sistem pemerintah sebagai Oracle atau Microsoft SQL Server.
Kami mengusulkan arsitektur di Gambar. 17 untuk model, dan pekerjaan masa depan kita akan menerapkan dan menguji model ini. Modul pertama cek koneksi ke database sistem manajemen diinstal pada mesin di mana database source.
Jika koneksi berhasil, database baru'''' ETL akan diciptakan. '' ETL'' memainkan peran repositori di mana metadata tentang skenario EMD akan disimpan. Metadata dalam repositori akan digunakan untuk menghasilkan dokumen pemetaan. Setelah membuat'' ETL'' database pengguna mungkin baik membuat Skenario Merck baru atau membuka satu ada untuk menyelesaikannya. Jika menciptakan skenario baru, luas bangunan baru akan muncul kemampu pengguna untuk menarik dan membangun model baru, dan dalam kasus membuka skenario EMD yang ada, dua file akan dibaca, Yang pertama adalah''. ETL'' file dari mana skenario lama akan dimuat ke area gambar untuk memungkinkan pengguna untuk menyelesaikannya, dan file kedua adalah''. sql'' di mana script SQL dari bagian lama skenario yang ada ditulis dan akan lengkap sebagai pengguna menyelesaikan modelnya. Beban modul berikutnya baik metadata tentang database ditemukan di database manajemen sistem pemerintah dan'' EMD Builder'' ikon antarmuka. Metada-The ta meliputi nama database, tabel, atribut, dan sebagainya.
Ikon antarmuka akan dimuat dari galeri ikon kami, elemen antarmuka akan ditampilkan dalam bagian berikutnya. Selanjutnya Modul memfasilitasi proses menggambar dimana pengguna dapat
menggunakan palet kami kontrol untuk menarik dan membangun nya EMD sekenario. Denganmenggunakan modul eksekusi, model EMD akan diterjemahkan ke dalam script SQL kemudian dieksekusi pada incoming data dari database sumber, sehingga ekstraksi, transformasi proses tion, dan pemuatan dapat diterapkan dan diinginkan kabel akan ditransfer ke skema sasaran DW di format yang dibutuhkan. Modul terakhir adalah bertanggung jawab untuk menyimpan
Model Merck pengguna. Selama operasi simpan, tiga file yang menghasilkan; yang pertama berisi user Model EMD di format biner, sehingga pengguna dapat membukanya setiap saat untuk memperbarui dalam gambar tersebut, kedua berisi script SQL yang dihasilkan, dan file yang dihasilkan ketiga adalah dokumen pemetaan yang dianggap sebagai kamus dan katalog untuk operasi ETL ditemukan dalam skenario EMD pengguna. Pengguna dapat menentukan folder di mana file yang dihasilkan akan disimpan. Yang dihasilkan file dapat ditransfer dari satu mesin yang akan digunakan pada- yang lain yang berisi sumber data yang sama dan sama menargetkan data warehouse skema; ini berarti bahwa dihasilkan file dari alat kami adalah mesin independen, namun mereka adalah sumber data dan tujuan skema tergantung. Hal ini jelas bahwa tujuan adalah seluruh skema (data warehouse atau data mart), tetapi masing-masing bagian dari skema ini (fakta atau dimensi) adalah han- dled sebagai tujuan mandiri dalam skenario Merck tunggal.
5. Model evaluasi dan perbandingan
Tabel 1 berisi matriks yang digunakan untuk membandingkan berbeda- pemodelan ent ETL pendekatan dan mengevaluasi usulan kami model terhadap model-model lain. Surat P dalam matriks
berarti bahwa model ini telah sebagian didukung berkorespondensi-the ing kriteria.
I. SARAN
Model yang menggunakan proses ETL sangat penting dalam pembangunan projek data ware hous yang baik. Maka dalam pemmbuatan harus mengacu pada standart yang telah ditentukan agar mudah untuk memanipulasi data yang telah dibuat.
II. KESIMPULAN
Proses ETL adalah masalah yang sangat penting dalam arus pencarian data warehousing. Masalah ini merupakan kebutuhan nyata untuk menemukan standar model konseptual untuk mewakili dengan cara sederhana ekstraksi yang tion, transformasi, dan pemuatan (ETL) proses. engklasifikasikan pendekatan ini menjadi tiga kategori; tinju, adalah pemodelan berdasarkan ekspresi pemetaan dan pedoman, pertama, adalah pemodelan berdasarkan gagasan konseptual, dan final kategori, adalah pemodelan berbasis UML lingkungan. Kami memiliki menjelaskan masing-masing model dalam beberapa detail. Terlebih lagi, kami mengusulkan sebuah novel konseptual model entitas diagram pemetaan (EMD) sebagai model yang disederhanakan untuk mewakili ekstraksing, transformasi, dan proses pemuatan data proyek pergudangan. Untuk menjelaskan model yang diusulkan kami; kita mendefinisikan metamodel untuk diagram pemetaan entitas.
Dalam metamodel kita mendefinisikan dua lapisan; yang pertama adalah abstraksi lapisan di mana lima objek (fungsi, data yang kontainer, entitas, hubungan, dan atribut) didefinisikan dengan jelas. Benda-benda di lapisan abstraksi adalah pandangan tingkat tinggi dari bagian atau objects yang dapat digunakan untuk menggambar skenario EMD. Yang kedua adalah lapisan Template yang merupakan ekspansi abstraksi lapisan. Pengguna dapat menambahkan lapisan sendiri di mana ETL penandatangan menarik skenario EMD nya. Kami juga menetapkan kerangka kerja untuk menggunakan model ini. Kerangka kerja ini terdiri dari sumber data bagian, data warehouse skema bagian, dan bagian pemetaan. Kedua Data sumber dan skema data warehouse harus didefinisikan secara jelas sebelum mulai menggambar skenario EMD. Dengan membandingkan proberpose model untuk proyek-proyek penelitian sebelumnya menggunakan evaluasi matriks, model pegangan yang diusulkan mungkin titik lemah yang muncul dalam pekerjaan sebelumnya. Dalam pekerjaan di masa depan makalah ini, kami akan mengembangkan dan menguji alat prototipe menyebutnya 'EMD Builder' untuk mencapai tugas-tugas berikut: memperkenalkan alat untuk menggambar entitas pemetaan skenario diagram menggunakan pallet grafikkonstruksi, menerapkan satu set transformasi operations, mengubah model grafis untuk kode oleh menghasilkan skrip SQL, dan menghasilkan dokumen pemetaan sesuai dengan standar Kimball.
III. REFERENSI
Arya, P., Slany, W., Schindler, C., 2006. Enhancing Wrapper Usability melalui Ontologi Sharing dan Skala Besar Kerjasama. <www.ru5.cti.gr/HT05/files/andreas_rath.ppt> (diakses 2006).
Skenario Bernstein, P., Rahm, E. 2000 gudang data. Untuk model manajemen. Dalam: Prosiding Konferensi Internasional ke-19 Pemodelan Konseptual (ER'00), LNCS, vol. 1920, Salt Lake City, Amerika Serikat, hlm 1-15.
Berson, A., Smith, SJ, 1997. Data Warehousing, Data Mining, dan OLAP. McGraw-Hill. Demarest, M., 1997. Politik Data Warehousing. <Http:// www.hevanet.com / Demarest / marc / dwpol.html>.
Dobre, A., Hakimpour, F., Dittrich, KR, 2003. Operator dan klasifikasi untuk pemetaan data dalam integrasi semantik. In: Prosiding Konferensi Internasional ke-22 di Konseptual Modeling (ER'03), LNCS, vol. 2813, Chicago, Amerika Serikat, hlm 534-547.
El Bastawesy, A., Boshra, M., Hendawi, A. 2005 pemetaan Entity. diagram untuk proses pemodelan ETL. Dalam: Prosiding Ketiga Konferensi Internasional tentang Informatika dan Sistem (info), Kairo.
Inmon, B., 1997. The Data Warehouse Anggaran. DM Ulasan Magazine, Januari 1997.<Www.dmreview.com/master.cfm?NavID=55 & EDID = 1315>.
Inmon, WH, 2002. Membangun Data Warehouse, ed ketiga. John Wiley and Sons, USA.
Jarke, M., Lenzerini, M., Vassiliou, Y., Vassiliadis, P., 2003. FundaMental Data Gudang, kedua ed. Springer-Verlag.
Jorg, Thomas, Deßloch, Stefan, 2008. Menuju menghasilkan ETL ¨ proses untuk tambahan beban. Dalam: Prosiding ACM Simposium Internasional 2008 pada database dan Teknik Aplikasi.
Kimball, R., Caserta, J., 2004. Data Warehouse ETL Toolkit. Teknik Praktis untuk Mengekstrak, Cleaning, Penurut dan Menyampaikan data.
Wiley. Kimball, R., Reeves, L., Ross, M., Thornthwaite, W., 1998. Data Warehouse Lifecycle Toolkit: Metode Ahli Merancang, Mengembangkan dan Menyebarkan Data Warehouse. John Wiley dan Sons.
Lujan-Mora, S., Trujillo, J., 2003. Sebuah metode yang komprehensif untuk data desain gudang. Dalam: Prosiding Internasional Kelima Workshop Desain dan Manajemen Data Gudang
(DMDW'03), Berlin, Jerman.
Lujan-Mora, S., Vassiliadis, P., Trujillo, J. 2004 pemetaan data. diagram untuk desain data warehouse dengan UML. In: International Konferensi Conceptual Modeling, Shanghai, China, November 2004.
Madhavan, J., Bernstein, PA, Rahm, E. 2001 skema Generik. sesuai dengan dewi asmara. Dalam: Prosiding 27th International Pertemuan pada Database Very Large, hlm 49-58.
Maier, T., 2004. Sebuah model formal dari proses ETL untuk OLAP berbasis penggunaan analisis web. Dalam: Prosiding Keenam WEBKDD Workshop: Webmining dan Web Usage Analysis (WEBKDD'04), dalam hubungannya dengan ke-10 Konferensi ACM SIGKDD (KDD'04), Seattle, Washington, Amerika Serikat, 22 Agustus 2004 (diakses 2006).
Miller, RJ, Haas, LM, Hernandez, MA, 2000 pemetaan Schema. Sebagai Penemuan query. Dalam: Prosiding Konferensi VLDB 26th, Kairo.
Moss, LT, 2005. Bergerak Proses ETL Anda ke Primetime.
<Http://www.businessintelligence.com//ex/asp/code.44/xe/article.htm> (Mengunjungi Juni 2005).
Mrunalini, M., Kumar, TVS, Kanth, KR, 2009. Simulasi aman ekstraksi data dalam ekstraksi transformasi pemuatan (ETL) processes. In: IEEE Computer Pemodelan dan Simulasi Konferensi. EMS'09. Ketiga UKSim Eropa Simposium, November 2009, hlm 142-147. ISBN: 978-1-4244-5345-0.
Munoz, Lilia, Mazon, Jose-Norberto, Trujillo, Juan, 2009. ~ untuk ETL proses model di gudang data. In: ACM Lanjutkan- ing dari First International Workshop Model Driven Layanan Kualitas Teknik dan Data dan Keamanan, November 2009.
Munoz, Lilia, Mazon, Jose-Norberto, Trujillo, Juan, 2010. Systematic ~ review dan perbandingan proses pemodelan ETL data gudang. Dalam: Prosiding Konferensi Kelima Iberia pada Sistem Informasi dan Teknologi IEEE (CISTI), August 2010, hlm 1-6. ISBN: 978-1-4244-7227-7. S.H. Ali El-Sappagh et al.
'Munoz, Lilia, Mazonand, Jose-Norberto, Trujillo, Juan, 2010b. A ~ keluarga percobaan untuk memvalidasi langkah-langkah untuk kegiatan UML diagram proses ETL di gudang data. Informasi dan Software Technology 52 (11), 1188-1203.
Naqvi, S., Tsur, S., 1989. Bahasa Logical Data dan Basis pengetahuan. Ilmu Komputer Press.
Oracle Corp, 2001. Panduan Oracle9iä Warehouse Builder pengguna, Lepaskan 9.0.2, November 2001. <Http://www.otn.oracle.com/prod- ucts / gudang / content.html>.
Rifaieh, R., Benharkat, NA 2002 Query berbasis data warehousing. tool. Dalam: Prosiding Kelima ACM International Workshop Data Warehousing dan OLAP, November 2002.
Shilakes, C., Tylman, J., 1998. Informasi Enterprise Portal. Enterprise Software Team. <Http://www.sagemaker.com/com- haan / downloads / EIP / indepth.pdf>.
Simitsis, A., 2003. Modeling dan Mengelola Proses ETL. VLDB
Ph.D. Lokakarya. Simitsis, Alkis, Vassiliadis, Panos, 2008. Sebuah metode untuk pemetaan desain konseptual untuk cetak biru logis untuk proses ETL. Sistem Pendukung Keputusan, Data Warehousing dan OLAP 45 (1), 22-40. Simitsis, Alkis, Skoutas, Dimitrios, Castellanos, Malu, 2008. Natural ' pelaporan bahasa untuk proses ETL. Dalam: Prosiding ACM 11 International Workshop Data Warehousing dan OLAP, hlm 65-72. ISBN: 978-1-60558-250-4.
Staudt, M., Vaduva, A., Vetterli, T. 1999 Manajemen Metadata dan. Data Warehousing. Laporan Teknis, Departemen Infor- Teknologi mation (IFI) di University of Zurich.
Stonebraker, M., Hellerstein, J. 2001 integrasi Content. Untuk e- bisnis. Dalam: Prosiding ACM SIGMOD / PODS 2001 Santa Barbara, CA, 21-24 Mei 2001. Trujillo, J., Lujan-Mora, S., 2003. Pendekatan berbasis UML untuk proses pemodelan ETL di gudang data. Dalam: Prosiding 22 Konferensi Internasional tentang Pemodelan Konseptual. LNCS, Chicago, USA.
Vassiliadis, P., 2000. Gudang Data Modeling dan Masalah Kualitas. Ph.D. Skripsi, Jurusan Teknik Elektro dan Komputer, Universitas Teknik Nasional Athena (Yunani).
Vassiliadis, P., Simitsis, A., Skiadopoulos, S., 2002. Konseptual modeling untuk proses ETL. Dalam: Prosiding Kelima ACM Lokakarya Internasional tentang Data Warehousing dan OLAP, hlm 14 - 21.
Vassiliadis, P., Simitsis, A., Skiadopoulos, S. 2002 Modeling ETL. kegiatan sebagai grafik. Dalam: Prosiding Internasional Keempat Workshop Desain dan Manajemen Gudang data
(DMDW'02), Toronto, Kanada, hlm 52-61.
Vassiliadis, P., Simitsis, A., Georgantas, P., Terrovitis, M., 2003. A kerangka kerja untuk desain skenario ETL. Dalam: Prosiding 15 CAiSE, Velden, Austria, 16 Juni 2003.
Vassiliadis, P., Simitsis, A., Georgantas, P., Terrovitis, M., Skiadopo- ulos, S. 2005. Sebuah kerangka kerja umum dan disesuaikan untuk desain skenario ETL. Sistem Informasi Journal.
Zhang, Xufeng, Sun, Weiwei, Wang, Wei, Feng, Yahui, Shi, Baile, 2008 Membangkitkan proses ETL tambahan secara otomatis.. In: IEEE Computer dan Ilmu Komputasi, hlm 516-521.