Proses dalam Data Mining menurut CRISP-DM
Cross-Industry Standard Process for Data Mining (CRISP-DM) merupakan proses standar data mining yang diaplikasikan di dunia industri. Terdapat 6 (enam) fase dalam CRISP-DM, yaitu :
- Fase Pemahaman Bisnis (Business Understanding Phase)
Fase pertama yang dilakukan dalam proses data mining adalah fase pemahaman bisnis. Dalam fase ini ada beberapa hal yang perlu dilakukan, seperti :
- Menentukan tujuan secara rinci dalam lingkup bisnis atau unit penelitian secara keseluruhan
- Menerjemahkan tujuan yang telah dibuat menjadi formula dari permasalahan data mining
- Menyusun strategi awal untuk mencapai tujuan yang telah dibuat
2. Fase Pemahaman data (Data Understanding Phase)
Fase Pemahaman Bisnis (Business Understanding Phase)
Setelah melalui fase pemahaman bisnis, selanjutnya adalah fase pemahaman data. Dalam fase ini terdapat hal-hal yang perlu dilakukan sebagai berikut :
- Mengumpulkan data
- Melakukan analisis data eksplorasi agar kita lebih mengenal data yang kita miliki dan mendapatkan informasi awal dari data tersebut
- Melakukan evaluasi terhadap kualitas atau karakteristik data
- Memilih bagian-bagian menarik dari data yang dianggap memiliki pola yang dapat ditindaklanjuti (jika diperlukan)
3. Fase Persiapan Data (Data Preparation Phase)
Dalam fase persiapan data, ada beberapa hal yang perlu dilakukan, yaitu :
- Mempersiapkan dataset akhir yang diambil dari data mentah yang kita miliki. Dataset akhir ini yang akan digunakan untuk fase-fase selanjutnya.
- Memilih kasus dan variabel yang sesuai dengan kebutuhan analisis
- Melakukan transformasi pada variabel-variabel tertentu (jika diperlukan)
- Membersihkan data agar siap digunakan untuk permodelan
4. Fase Permodelan (Modelling Phase)
Fase selanjutnya adalah fase permodelan. Berikut adalah hal-hal yang perlu dilakukan untuk fase permodelan :
- Memilih dan menggunakan teknik permodelan yang sesuai dengan kebutuhan analisis
- Menyesuaikan pengaturan model untuk mengoptimalkan hasil yang diperoleh
- Mengingat bahwa beberapa metode yang berbeda dapat digunakan untuk kasus data mining yang sama
- Jika diperlukan, pada fase ini kita dapat kembali (loop back) pada fase persiapan data untuk menyesuaikan bentuk data yang kita miliki dengan persyaratan tertentu dari teknik data mining
5. Fase Evaluasi (evaluation Phase)
Dalam fase evaluasi, meliputi hal-hal sebagai berikut :
- Mengevaluasi satu atau lebih model yang terpilih dari fase permodelan untuk mengetahui kualitas dan efektivitas dari model terpilih tersebut sebelum digunakan di lapangan
- Menentukan apakah model sebenarnya mencapai tujuan yang ditetapkan pada fase pertama, yaitu fase pemahaman bisnis
- Memeriksa apakah aspek-aspek penting dari masalah riset/bisnis belum cukup untuk menjelaskan masalah
- Membuat keputusan mengenai hasil data mining
6. Fase Penyebaran (Deployment Phase)
Pada fase penyebaran, ada beberapa hal yang perlu diperhatikan sebagai berikut :
- Memanfaatkan model yang telah dibuat : pembuatan model tidak menunjukkan penyelesaian proyek
- Contoh cara penyebaran yang sederhana : menghasilkan laporan
- Contoh cara penyebaran yang lebih kompleks : mengimplementasikan proses data mining di berbagai tempat
- Dalam urusan bisnis, seringkali pelanggan melakukan penyebaran berdasarkan model kita.
Gambar CRISP-DM
Sumber :masakdata-com
Fase Pemahaman Bisnis (Business Understanding Phase)
Setelah melalui fase pemahaman bisnis, selanjutnya adalah fase pemahaman data. Dalam fase ini terdapat hal-hal yang perlu dilakukan sebagai berikut :
Dalam fase persiapan data, ada beberapa hal yang perlu dilakukan, yaitu :