Analisis
cluster ialah suatu analisis statistik peubah ganda yang bertujuan untuk mengklasifikasikan
sekelompok objek kedalam beberapa cluster/kelompok berdasarkan ukuran kemiripan
atau persamaan karakteristik umum antar objek-objek tersebut. Objek tersebut
akan diklasifikasikan ke dalam satu atau lebih cluster (kelompok) sehingga
objek-objek yang berada dalam satu cluster akan mempunyai kemiripan satu dengan
yang lain.Objek bisa berupa produk (barang dan jasa), orang (responden,
konsumen, dll), serta benda (tumbuhan, hewan, dsb).
Analisis
cluster panjang (pertama kali digunakan oleh Tryon, 1939) meliputi beberapa
algoritma yang berbeda dan metode untuk mengelompokkan benda serupa ke dalam
kategori masing-masing. Sebuah pertanyaan umum yang dihadapi peneliti di banyak
bidang penelitian adalah bagaimana mengorganisasi data yang diamati ke dalam
struktur yang bermakna, yaitu, untuk mengembangkan taksonomi.Analisis cluster
dapat digunakan untuk menemukan struktur data tanpa memberikan penjelasan /
penafsiran. Dengan kata lain, analisis cluster hanya menemukan struktur data
tanpa menjelaskan mengapa mereka ada.
Tujuan dari analisis Cluster
adalah :
1. Mengetahui ada tidaknya perbedaan
yang nyata (signifikan) antar kelompok yang terbentuk, dalam hal ini cluster
yang dihasilkan.
2. Melihat profil serta
kecenderungan-kecenderungan dari masing-masing cluster yang terbentuk.
3. Melihat posisi masing-masing obyek
terhadap obyek lainnya dari cluster yang terbentuk.
Secara teori, cluster
yang baik itu adalah yang mempunyai :
a.
Homogenitas
(kesamaan) yang tinggi antar anggota dalam satu cluster (within-cluster)
b.
Heterogenitas
(perbedaan) yang tinggi antar cluster yang satu dengan cluster lainnya (between
cluster).
Beberapa manfaat dari
analisis cluster adalah: eksplorasi data peubah ganda, reduksi data,
stratifikasi sampling, prediksi keadaan obyek. Hasil dari analisis
cluster dipengaruhi oleh: obyek yang diclusterkan, peubah yang diamati, ukuran
kemiripan (jarak) yang dipakai, skala ukuran yang dipakai, serta metode
pengclusteran yang digunakan.
Analisis
Cluster memiliki dua metode yaitu
Ø Metode Hirarki
Metode ini memulai pengelompokan dengan dengan
dua atau lebih objek yang mempunyai kesamaan paling dekat. Kemudian proses
diteruskan ke objek lain yang mempunyai kedekatan kedua. Demikian seterusnya
sehingga cluster akan membentuk semacam “pohon”, di mana ada hirarki
(tingkatan) yang jelas antar objek, dari yang paling mirip sampai paling tidak
mirip. Secara logika semua objek pada akhirnya akan membentuk sebuah cluster.
Dalam metode hirarki cluster terdapat dua tipe dasar yaitu :
1.
agglomerative (pemusatan), dan
2.
divisive
(penyebaran).
Dalam
metode agglomerative, setiap obyek atau
observasi dianggap sebagai sebuah cluster tersendiri. Dalam tahap selanjutnya,
dua cluster yang mempunyai kemiripan digabungkan menjadi sebuah cluster baru
demikian seterusnya.
Dalam
metode divisive kita beranjak
dari sebuah cluster besar yang terdiri dari semua obyek atau observasi.
Selanjutnya, obyek atau observasi yang paling tinggi nilai ketidakmiripannya
kita pisahkan demikian seterusnya.
Ø Metode Non- Hirarki
Berbeda dengan metode
hirarki, metode ini justru dimulai dengan terlebih dahulu jumlah cluster yang
diinginkan (dua cluster, tiga cluster atau yang lain). Setelah jumlah cluster
diketahui, baru proses cluster dilakukan tanpa mengikuti proses hirarki. Metode
ini biasa disebut dengan K-Means Cluster.
Kebalikan dari metode
hirarki, metode nonhirarki tidak meliputi proses “treelike construction“.
Justru menempatkan objek-objek ke dalam cluster sekaligus sehingga terbentuk
sejumlah cluster tertentu. Langkah pertama adalah memilih sebuah cluster
sebagai inisial cluster pusat, dan semua objek dalam jarak tertentu ditempatkan
pada cluster yang terbentuk. Kemudian memilih cluster selanjutnya dan
penempatan dilanjutkan sampai semua objek ditempatkan. Objek-objek bisa
ditempatkan lagi jika jaraknya lebih dekat pada cluster lain daripada cluster
asalnya.