-->
g2QFCKwavghUp2yzjKrIFwEeG13RASCerFTCMH35

Pengertian Analisis Cluster

Analisis Cluster




Analisis Cluster
Definisi
Analisis cluster adalah suatu analisis statistik yang bertujuan memisahkan obyek kedalam beberapa kelompok yang mempunyai sifat berbeda antar kelompok yang satu dengan yang lain. Dalam analisis ini tiap-tiap kelompok bersifat homogen antar anggota dalam kelompok atau variasi obyek dalam kelompok yang terbentuk sekecil mungkin.

Proses Analisis Cluster

Tujuan utama analisis cluster menggabungkan objek-objek yang mempunyai kesamaan kedalam sebuah kelompok atau cluster. Untuk mencapai tujuan itu kita harus menjawab tiga pertanyaan, yaitu :
(1)  Bagaimana kita mengukur tingkat kesamaan ?
(2)  Bagaimana kita membentuk cluster ?
(3)  Berapa banyak cluster yang akan kita benntuk ?

Proses Pengambilan Keputusan dalam Analisis Cluster

Pengambilan keputusan dengan analisis cluster memiliki 6 tahapan, yaitu : menentukan tujuan analisis cluster, menentukan desain penelitian analisis cluster, menentukan asumsi analisis cluster, menurunkan cluster-cluster dan memperkirakan overall fit, menginterpretasi hasil analisis cluster, mengukur tingkat validasi hasil analisis cluster.

Langkah 1 : Tujuan Analisis Cluster

Tujuan analisis cluster secara khusus antara lain :
(1)  Pengelompokkan
Analisis cluster digunakan dengan tujuan explanatory maupunconfirmatory
(2)  Penyederhanaan data
           Analisis cluster menetapkan struktur dari observasi atau data bukan variabel.
(3)      Pengidentifikasian hubungan
Analisis cluster dapat menunjukkan ada tidaknya hubungan antar observasi atau obyek dalam analisis

Langkah 2 : Desain Penilitian dalam Analisis Cluster

Sebelum melakukan proses pemilahan obyek kedalam beberapa cluster, terlebih dahulu peneliti harus menjawab tiga pentanyaan, yaitu : apakah ourliers akan dihapus ?, bagaimana obyek-obyek yang mempunyai kesamaan diukur ?, haruskah data distandarisasi ?

Mendeteksi Outliers
Dalam melakukan pemilahan obyek kedalam cluster-cluster, analisis tidak hanya peka terhadap variabel-veriabel yang tidak sesuai dengan kasus yang diteliti tetapi juga peka terhadap outliers (obyek-obyek yang “berbeda” dengan obyek yang lainnya). Outliers terjadi karena 2 dua hal, yaitu :
(1)   Observasi “menyimpang” yang tidak mewakili populasi
(2)   Suatu undersampling kelompok-kelompok dalam populasi yang menyebabkan underrepresentation kelompok-kelompok dalam sampel
Dalam kedua kasus tersebut, outliers dapat mengubah struktur sebenarnya dari populasi sehingga kita akan memperoleh cluster-cluster yang tidak sesuai dengan struktur sebenarnya dari populasi tersebut. Karena itu, pembuanganoutliers sangat penting dalam analisis ini. Outliers dapat dilihat melalui Profile Diagram. Outliers adalah obyek-obyek dengan profil-profil yang berbeda, atauvalue yang berbeda dalam satu atau beberapa variabel.

Kesamaan Ukuran
Konsep kesamaan yang diperlukan dalam analisis cluster. Interobject Similarity adalah sebuah ukuran untuk  kesesuaian atau kemiripan, diantara objek-objek yang akan dipilah menjadi beberapa cluster. Interobject Similaritydapat diukur dengan beberapa cara, antara lain :  Correlatioal Measures, Distance Measures, dan Association Measures. Pemilihan metode tergantung pada tujuan dan jenis data. Correlatioal Measures dan Distance Measuresdigunakan untuk data dengan tipe metic, sedangkan Association Measuresdigunakan bila data bertipe non-metic.

Correlatioal Measures
The Interobject Measures Similarity dapat diukur dengan corelation coefficient antara pasangan obyek-obyek yang diukur dalam beberapa variabel. Tingginya korelasi menujukkan kesamaan dan rendahnya korelasi menunjukkan ketidaksamaan.

Distance Measures
Distance Measures merupakan ukuran ketidaksamaan. Semakin tinggi nilainya semakin rendah kesamaan dalam pasangan obyek.

 Association Measures
Association Measuresbi of Similarity digunakan bila obyek-obyek yang diamati bertipe non-metic (tipe nominal atau ordinal). Misalnya, responden hanya menjawab ya atau  tidakdalam sebuah pertanyaan.

Standarisasi Data

Sama halnya dengan  seleksi kesamaan ukuran, dalam standarisasi data ni peneliti harus menjawab sebuah pertanyaan, yaitu : Apakah data yang tersedia harus distandarisasi? Dalam menjawab pertanyaan ini, penelti harus memperhatikan beberapa masalah, misalnya, jarak nilai dari masing-masing variabel karena perbedaan skala. Secara umum, variabel dengan penyebaran nilai yang tinggi mempunyai dampak yang lebih pada hasil akhir. Karena itu, peneliti diharapkan mengetahui secara lengkap pengukuran dari variabel-variabel. Proses standarisasi dalam analisi cluster ada dua, yaitu : standarisasi berdasarkan variabel dan standarisasi berdasarkan observasi.


 Langkah 3 : Asumsi-asumsi Analisis Cluster
Syarat normality, linearity, dan homoscedasticity sangat diperhatikan dalam teknik-teknik multivariate yang lain tetapi tidak dalam analisis cluster. Dalam analisis cluster, peneliti harus lebih memperhatikan masalah : seberapa besar sampel mewakili populasi (representativeness) dan ada tidaknyamulticollinearity.

Langkah 4 : Menurunkan Cluster-Cluster dan Memperkirakan Overall Fit
Peneliti pertama kali harus menentukan clustering algorithm yang akan digunakan untuk membentuk cluster dan selanjutnya memutuskan berapa cluster yang akan dibentuk. Dua hal ini mempunyai implikasi yang substensial tidak hanya pada hasil yang akan diperoleh tetapi juga pada intepretasi hasil tersebut.
Clustering Algorithm
Petanyaan pertama yang harus dijawab dalam tahapan ini adalah : prosedur apa yang akan digunakan untuk mengelompokkan obyek-obyek dalam kelompok-kelompok atau cluster-cluster ? Atau dengan kata lain clustering algorithmatau aturan apa yang lebih tepat ?
Secara umum clustering algorithm digolongkan dalam dua kategori, yaitu :
(1)  Metode Hirarki
(2)  Metode Nonhirarki

Metode Hirarki Cluster
Dalam metode hirarki cluster terdapat dua tipe dasar yaitu agglomerative(pemusatan) dan divisive (penyebaran).  Dalam metode agglomerative, setiap obyek atau observasi dianggap sebagai sebuah cluster tersendiri. Dalam tahap selanjutnya, dua cluster yang mempunyai kemiripan digabungkan menjadi sebuah cluster baru demikian seterusnya. Sebaliknya, dalam metode divisivekita beranjak dari sebuah cluster besar yang terdiri dari semua obyek atau observasi. Selanjutnya, obyek atau observasi yang paling tinggi nilai ketidakmiripannya kita pisahkan demikian seterusnya.
Dalam agglomerative ada lima metode yang cukup terkenal, yaitu : Single Linkage, Complete Linkage, Average Linkage, Ward’s Method, Centroid Method.
Single Linkage, prosedur ini didasarkan pada jarak terkecil. Jika dua obyek terpisah oleh jarak yang pendek maka kedua obyek tersebut akan digabung menjadi satu cluster daan demikian saterusnya.
Complete Linkage, berlawanan dengan Single Linkage prosedur ini pengelompokkannya berdasarkan jarak terjauh.
Average Linkage, prosedure ini hampir sama dengan Single Linkage maupunComplete Linkage, namun kriteria yang digunakan adalah rata-rata jarak seluruh individu dalam suatu cluster dengan jarak seluruh individu dalam cluster yang lain.
Ward’s Method, jarak antara dua cluster dalam metode ini berdasarkan totalsum of square dua cluster pada masing-masing variabel.
Centroid Method, jarak antara dua cluster dalam metode ini berdasarkan jarakcentroid dua cluster yang bersangkutan.

Metode Non-Hirarki Cluster
Kebalikan dari metode hirarki, metode nonhirarki tidak meliputi proses “treelike construction“. Justru menempatkan objek-objek ke dalam cluster sekaligus sehingga terbentuk sejumlah cluster tertentu. Langkah pertama adalah memilih sebuah cluster sebagai inisial cluster pusat, dan semua objek dalam jarak tertentu ditempatkan pada cluster yang terbentuk. Kemudian memilih cluster selanjutnya dan penempatan dilanjutkan sampai semua objek ditempatkan. Objek-objek bisa ditempatkan lagi jika jaraknya lebih dekat pada cluster lain daripada cluster asalnya.  Metode nonhirarki cluster berkaitan dengan K-means custering, dan ada tiga pendekatan yang digunakan untuk menempatkan masing-masing observasi pada satu cluster.
Sequential Threshold, Metode Sequential Threshold memulai dengan pemilihan satu cluster dan menempatkan semua objek yang berada pada jarak tertentu ke dalamnya. Jika semua objek yang berada pada jarak tertentu telah dimasukkan, kemudian cluster yang kedua dipilih dan menempatkan semua objek yang berjarak tertentu ke dalamnya. Kemudian cluster ketiga dipilih dan proses dilanjutkan seperti yang sebelumnya.
Parallel Threshold, Metode Parallel Threshold merupakan kebalikan dari pendekatan yang pertama yaitu dengan memilih sejumlah cluster secara bersamaan dan menempatkan objek-objek kedalam cluster yang memiliki jarak antar muka terdekat. Pada saat proses berlangsung, jarak antar muka dapat ditentukan untuk memasukkan beberapa objek ke dalam cluster-cluster. Juga beberapa variasi pada metode ini, yaitu sisa objek-objek tidak dikelompokkan jika berada di luar jarak tertentu dari sejumlah cluster.
Optimization, Metode ketiga adalah serupa dengan kedua metode sebelumnya kecuali bahwa metode ini memungkinkan untuk menempatkan kembali objek-objek ke dalam cluster yang lebih dekat.

Kapan Kita Menggunakan Metode Hirarki atau metode Non-Hirarki ?
Jawaban pasti tidak untuk pertanyaan tersebut tidak ada karena dua alasan.Pertama, penelitian yang sedang diamati dimungkinkan dapat diselesaikan dengan kedua metode (hirarki atau non-hirarki). Kedua, penelitian yang diamati mungkin sebaiknya diselesaikan dengan suatu metode yang selanjutnya dengan metode yang lainnya.
Berapa Cluster yang Akan Dibentuk ?
Banyaknya cluster yang  akan dibentuk tidak dapat ditentukan secara sembarang. Penentuan banyaknya cluster yang akan dibentuk harus berdasarkan suatu teori yang akan mempengaruhi jumlah cluster secara langsung atau alami.

Langkah 5 : Interpretasi Cluster

Tahap interpretasi meliputi pengujian masing-masing cluster dalam terminology macam cluster untuk menamai atau memberikan keterangan secara tepat sebagai gambaran sifat dari cluster.
Ketika memulai proses interpretasi, ada satu ukuran yang sering digunakan yaitu cluster centroid. Jika prosedur pengelompokan dilakukan terhadap data asli, maka ini akan memberikan gambaran yang logic. Tetapi jika data telah distandarisasi atau jika analisis cluster dilakukan dengan menggunakan hasil analisis faktor (faktor komponen), peneliti harus mengembalikan skor asli untuk variabel asal dan menghitung rata-rata profiles menggunakan data  ini.
Gambaran dan interpretasi cluster , memberikan hasil lebih daripada deskriptif.Pertama, Metode ini memberikan sebuah rata-rata untuk perkiraan masing-masing cluster yang terbentuk sebagaimana yang dikemukakan pada toeri sebelumnya atau pengalaman praktek. Kedua, Gambaran cluster memberikan jalan untuk membuat perkiraan signifikansi praktis. Peneliti mungkin memerlukan bahwa perbedaan substansi yang ada pada sejumlah variable cluster dan penyelesaian cluster akan dikembangkan  sampai tampak sejumlah perbedaan.

Langkah 6 : Validasi dan Gambaran Cluster

Analisis cluster agak bersifat subjektif  dalam penentuan penyelesaian cluster yang optimal, sehingga peneliti seharusnya memberikan perhatian yang besar mengenai validasi dan jaminan tingkat signifikansi pada penyelesaian akhir dari cluster. Meskipun tidak ada metode untuk menjamin validitas dan tingkat signifikansi , beberapa pendekatan telah dikemukakan untuk memberikan dasar bagi perkiraan  peneliti.
Validasi Hasil Cluster
Validasi termasuk usaha yang dilakukan oleh peneliti untuk menjamin bahwa hasil cluster adalah representatif terhadap populasi secara umum, dan dengan demikian dapat digeneralisasi untuk objek yang lain dan stabil untuk waktu tertentu. Pendekatan langsung dalam hal ini adalah dengan analisis sample secara terpisah kemudian membandingkan antara  hasil cluster dengan perkiraan masing-masing cluster. Pendekatan ini sering tidak praktis, karena adanya keterbatasan waktu dan biaya atau ketidaktersediaan objek untuk perkalian analisis cluster. Dalam hal ini pendekatan tyang biasa digunakan adalah dengan membagi sample menjadi dua kelompok. Masing-masing dianalisis cluster secara terpisah, kemudian hasinya dibandingkan.

Profiling Hasil Cluster
Tahap Profiling meliputi penggambaran karakteristik masing-masing cluster untuk menjelaskan bagaimana mereka bisa berbeda secara relevan pada tiap dimensi. Tipe ini meliputi penggunaan analisis diskriminan. Prosedur dimulai setelah cluster ditentukan. Peneliti menggunakan data yang sebelumnya tidak masuk dalam prosedur cluster untuk menggambarkan karakteristik masing-masing cluster. Meskipun secara teori tidak masuk akal (rasional) dalam perbedaan silang cluster, akan tetapi hal ini diperlukan untuk memprediksi validasi taksiran, sehingga  minimal penting secara praktek.

Sumber :prayudho.wordpress.com
Related Posts

Related Posts

Post a Comment