2.1
Konsep
Dasar
Analisis cluster merupakan suatu kelas
teknik, dipergunakan untuk mengklasifikasi objek atau kasus (responden) ke
dalam kelompok yang relatif homogen, yang disebut cluster. Objek/kasus dalam
setiap kelompok cenderung mirip satu sama lain dan berbeda jauh (tidak sama)
dengan objek dari cluster lainnya. Analisis cluster juga disebut analisis klasifikasi
atau taksonomi numeric (numerical
taxonomy). Kita berkenaan dengan prosedur pengclusteran di mana setiap
objek hanya masuk ke dalam satu cluster saja, tidak terjadi tumpang tindih .
Perhatikan
bahwa setiap objek/kasus/pembeli hanya masuk ke dalam 1 cluster dan tidak
terjadi tumpang tindih, cluster saling meniadakan. Di sana juga menunjukkan
hasil pengclusteran yang sering terjadi dalam praktik yaitu terjadi tumpang
tindih, artinya objek yang seharusnya menjadi anggota cluster 1, menjadi angota
cluster 2, dan sebagainya. Misalnya, di Jakarta orang kaya tinggal di Menteng
atau Pondok Indah, orang tidak kaya di daerah Pesing. Di Menteng atau di Pondok
Indah, memang ada orang tidak kaya, tetapi sedikit, juga di Pesing ada orang
kaya tetapi juga sedikit. Kita tetap lebih aman mengatakan orang kaya di
Jakarta tinggal di Menteng dan yang tidak kaya di daerah Pesing. Probalilitas
orang kaya tinggal di Pesing atau orang tidak kaya tinggal di Pondok Insah
sangat kecil. Pondok indah cluster orang kaya Pesing cluster orang tidak kaya.Analisis cluster telah dipergunakan di dalam
pemasaran untuk berbagai tujuan, termasuk sebagai berikut.
a. Membuat
segmen pasar atau segmenting the market. Sebagai
contoh pelanggan luar atau pembeli sering diclusterkan berdasarkan manfaat atau
keuntungan yang diperoleh dari pembelian barang. Setiap cluster akan terdiri
dari pelanggan/pembeliyang relatif homogen, dinyatakan dalam manfaat yang
dicari. Pendekatan ini disebut segmentasi manfaat (benefit segmentation).
b. Memahami
perilaku pembeli (understanding buyer
behaviours). Analisis cluster bisa dipergunakan untuk
mengenali/mengidentifikasikan kelompok pembeli yang homogen atau relatif
homogen. Kemudian perilaku dalam pembelian untuk setiap kelompok mungkin perlu
dikaji secara terpisah. Responden (pembeli) dikelompokkan di dasarkan pada self-reported importance yang terkait
pada setiap faktor pilihan yang dipergunakan untuk memilih toko atau mall di
mana para pembeli membeli barang yang dibutuhkan.
Analisis
cluster juga telah dipergunakan untuk mengenali/mengidentifikasi jenis strategi
yang dipergunakan oleh pembeli mobil untuk mendapatkan informasi eksternal.
c. Mengenali
peluang produk baru (identifying new
product opportunities). Dengan mengclusterkan merek dan produk, competitive set di dalam pasar bisa
ditentukan. Merek di dalam cluster yang sama, bersaing sengit satu sama lain,
daripada merek dari cluster lain. Suatu perusahaan mengkaji tawaran yang baru
dibandingkan dengan tawaran dari pesaing untuk mengenali peluang produk baru
yang potensial.
d. Memilih
uji pasar (selecting test market).
Dengan jalan mengelompokkan kota ke dalam cluster yang homogen, dimungkinkan
untuk memilih kota yang bisa dibandingkan untuk menguji berbagai jenis
strategi. Misalnya kota dikelompokkkan menjadi kelompok (cluster), kota dagang,
kota wisata, kota seni/budaya, kota industri.
e. Mereduksi
data (reducing data). Analisis
cluster, bisa dipergunakan sebagai suatu alat mereduksi data secara umum, untuk
mengembangkan cluster atau sub-grup dari data yang mudah dikelola (manageable) dari kumpulan data asli,
secara individual. Analisis multivariate yang berlanjut didasarkan pada cluster
bukan pada observasiindividual. Sebagai contoh, untuk menguraikan perbedaan
perilaku di dalam penggunaan produk, pembeli mungkin dicluster pertama kali ke
dalam kelompok. Perbedaan antara kelompok, mungkin dikaji dengan menggunakan
analisis diskriminan ganda.
Proses
Analisis Cluster.Sebagaimana teknik multivariat lain
proses analisis cluster dapat dijelaskan dalam enam tahap sebagai berikut :
Tahap Pertama : Tujuan Analisis
Cluster
Tujuan
utama analisis cluster adalah mempartisi suatu set objek menjadi dua kelompok
atau lebih berdasarkan kesamaan karakteristik khusus yang dimilikinya.
Dalam
pembentukan kelompok/cluster dapat
dicapai tiga tujuan, yaitu :
a. Deskripsi klasifikasi (taxonomy description)
Penerapan
anallisis cluster secara tradisisonal bertujuan mengeksplorasi dan membentuk
suatu klasisfikasi/taksonomi secara empiris. Karena kemampuan partisinya
analisis cluster dapat diterapkan secara luas. Meskipun secara empiris
merupakan teknik eksplorasi analisis cluster dapat pula digunakan untuk tujuan
konfirmasi.
b. Penyederhanaan
Data
Penyederhanaan
data merupakan bagian dari suatu taksonomi. Dengan struktur yang terbatas
observasi/objek dapat dikelompokkan untuk analisis selanjutnya.
c. Identifikasi
Hubungan (Relationship Identification)
Hubunganantar
objek diidentifikasi secara empiris. Struktur analisis cluster yang sederhana
dapat menggambarkan adanya hubungan atau kesamaan dan perbedaan yang tidak
dinyatakan sebelumnya.
Tahap Kedua : Desain Penelitian dalam Analisis Cluster
Tahap Kedua : Desain Penelitian dalam Analisis Cluster
Tiga
hal penting dalam tahap ini adalah pendeteksian outlier, mengukur kesamaan, dan
standarisasi data.
A.
Pendeteksian Outlier
Outlier
adlah suatu objek yang sangat berbeda dengan objek lainnya. Outlier dapat
digambarkan sebagai observasi yang secara nyata kebiasaan, tidak mewakili
populasi umum, dan adanya undersampling dapat pula memunculkan outlier. Outlier
menyebabkan menyebabkan struktur yang tidak benar dan cluster yang terbentuk
menjadi tidak representatif.
B. Mengukur Kesamaan antar Objek
Konsep
kesamaan adalah hal yang fundamental dalam analisis cluster. Kesamaan antar
objek merupakan ukuran korespondensi antar objek. Ada tiga metode yang dapat
diterapkan, yaitu ukuran korelasi, ukuran jarak, dan ukuran asosiasi.
a. Ukuran
Korelasi
Ukuran
ini dapat diterapkan pada data dengan skala metrik, namun jarang digunakan
karena titik bertnya pada nilai suatu pola tertentu, padahal tisik berat
analisis cluster adalah besarnya objek. Kesamaan antar objek dapat dilihat dari
koefisien korelasi antar pasangan objek yang diukur dengan beberapa variabel.
b. Ukuran
Jarak
Merupakan
ukuran yang paling sering digunakan. Diterapkan untuk data berskala metrik.
Sebenarnya merupakan ukuran ketidakmiripan, dimana jarak yang besar menunjukkan
sedikit kesamaan sebaliknya jarak yang pendek/kesil menunjukkan bahwa suatu
objek makin mirip dengan objek lain. Bedanya dengan ukuran korelasi adalah
bnahwa ukuran jarak fokusnya pada besarnya nilai. Cluster berdasarkan ukuran
korelasi bisa saja tidak memiliki kesamaan nilai tapi memiliki kesamaan pola,
sedangkan cluster dberdasrkan ukuran jarak lebih memiliki kesamaan nilai
meskipun polanya berbeda.
Ada
beberapa tipe ukuran jarak antara lain jarak Euklidian, jarak city-Box, dan
jarak Mahalanobis. Ukuran yang paling sering digunakan adalah jarak Euklidian.
Jarak Euklidian adalah besarnya jarak suatu garis lurus yang menghubungkan
antar objek.
c. Ukuran
Asosiasi
Ukuran
asosiasi dipakai untuk mengukur data berskala nonmetrik (nominal atau ordinal).
2.3
Standarisasi
Data
a. Standarisasi
Variabel
Bentuk
paling umum dalam standarisasi variabel adalah konversi setiap variabel
terhadap skor atandar ( dikenal dengan Z score) dengan melakukan substraksi
nilai tengan dan membaginyadengan standar deviasi tiap variabel.
b. Standarisasi
Data
Berbeda
dengan standarisasi variabel, standarisasi ndata dilakukan terhadap observasi/objek
yang akan dikelompokkan.
Tahap Ketiga : Asumsi-asumsi dalam Analisis Cluster
Tahap Ketiga : Asumsi-asumsi dalam Analisis Cluster
Seperti
hal teknik analisis lain,analisis cluster juga menetapkan adanya suatu asumsi.
Ada dua asumsi dalam analisis cluster, yaitu :
A.
Kecukupan Sampel untuk merepresentasikan/mewakili Populasi
Biasanya
suatu penelitian dilakukan terhadap populasi diwakili oleh sekelompok sampel.
Sampel yang digunakan dalam analisis ckuster harus dapat mewakili populasi yang
ingin dijelaskan, karena analisis ini baik jika sampel representatif. Jumlah
sampel yang diambil tergantung penelitinya, seorang peneliti harus yakin bahwa
sampil yang diambil representatif terhadap populasi.
B. Pengaruh
Multukolinieritas
Ada
atau tidaknya multikolinieritas antar variabel sangat diperhatikan dalam
analisis cluster karena hal itu berpengaruh, sehingga variabel-variabel yang
bersifat multikolinieritas secara eksplisit dieprtimbangkan dengan lebih
seksama.
Tahap Keempat
: Proses Mendapatkan Cluster dan Menilai kelayakan secara keseluruhan
Ada
dua proses penting yaitu algoritma cluster dalam pembentukan cluster dan
menentukan jumlah cluster yang akan dibentuk. Keduanya mempunyai implikasi
substansial tidak hanya pada hasil yang diperoleh tetapi juga pada interpretasi
yang akan dilakukan terhadap hasil tersebut.
2.4
Algoritma Cluster
Algoritma cluster harus dapat memaksimalkan perbedaan relatif
cluster terhadap variasi dalam cluster. Dua metode paling umum dalam algoritma
cluster adalahmetode hirarkhi dan metode non hirarkhi. Penentuan metode mana
yag akan dipakai tergantung kepada peneliti dan konteks penelitian dengan tidak
mengabaikan substansi, teori dan konsep yang berlaku. Keduanya memiliki
kelebihan sendiri-sendiri. Keuntungan metode hirarkhi adalah cepat dalam proses
pengolahan sehingga menghemat waktu, namun kelemahannya metode ini dapat
menimbulkan kesalahan. Selain itu tidak baik diterapkan untuk menganalisis
sampel dengan ukuran besar. Metode Non Hirarkhi memiliki keuntungan lebih
daripada metode hirarkhi. Hasilnya memiliki sedikit kelemahan pada data
outlier, ukuran jarak yang digunakan, dan termasuk
variabel tak relevan atau variabel yang tidak tepat. Keuntungannya hanya dengan
menggunakan titik bakal nonrandom, penggunaan metode non hirarkhi untuk titik
bakal random secara nyata lebih buruk dari pada metode
hirarkhi.
Alternatif lain adalah dengan mengkombinasikan kedua metode ini.
Pertama gunakan metode hirarkhi kemudian dilanjutkan dengan metode non
hirarkhi.
A. Metode Hirarkhi
Tipe dasar dalam metode ni adalah
aglomerasi dan pemecahan. Dalam metode aglomerasi tiap observasi pada mulanya
dianggap sebagai cluster tersendiri sehingga terdapat cluster sebyak jumlah
observasi. Kemudian dua cluster yang terdekat kesamaannya digabung menjadi
suatu cluster babru, sehingga jumlah cluster berkurang satu pada tiap tahap.
Sebaliknya pada metode pemecahan dimulai dari satu cluster besar yang
mengandung seluruh observasi, selanjutnya observasi-observasi yang paling tidak
sama dipisah dan dibentuk cluster-cluster yang lebih kecil. Proses ini
dilakukan hingga tiap observasi menjadi cluster sendiri-sendiri.
Hal
penting dalam metode hirarkhi adalah bahwa hasil pada tahap sebelumnya selalu
bersarang di dalam hasil pada tahap berikutnya, membentuk sebuah pohon.
Ada
lima metode aglomerasi dalam pembentukan cluster, yatiu :
a.
Pautan Tunggal (Single Linkage)
Metode ini didasarkan pada jarak
minimum. Dimulai dengan dua objek yang dipisahkan dengan jarak paling
pendek maka keduanya akan ditempatkan
pada cluster pertama, dan seterusnya. Metode ini dikenal pula dengan nama pendekatan
tetangga terdekat.
b. Pautan Lengkap (Complete Linkage)
Disebut juga pendekatan tetangga
terjauh. Dasarnya adalah jarak maksimum. Dalam metode ini seluruh objek dalam
suatu cluster dikaitkan satu sama lain pada suatu jarak maksimuma atau dengan
kesamaan minimum.
c. Pautan Rata-rata (Average Linkage)
Dasarnya adalah jarak rata-rata antar
observasi. pengelompokan dimulai dari tengan atau pasangan observasi dengan
jarak paling mendekati jarak rata-rata.
d. Metode Ward (Ward’s Method)
Dalam metode ini jarak antara dua cluster adalah jumlah
kuadrat antara dua cluster untuk seluruh variabel. Metode ini cenderung
digunakan untuk mengkombinasi cluster-cluster dengan jumlah kecil.
e.
Metode Centroid
Jarak antara dua cluster adalah jarak
antar centroid cluster tersebut. Centroid cluster adalah nilai tengah observasi
pada variabel dalam suatu set variabel cluster. Keuntungannya adalah outlier
hanya sedikit berpengaruh jika dibandingkan dengan metode lain.
B.
Metode Non Hirarkhi
Masalah utama dalam metoda non hirarkhi
adalah bagaimana memilih bakal cluster. Harus disadari pengaruh pemilihan bakal
cluster terhadap hasil akhir analisis cluster. Bakal cluster pertama adalah
observasi pertama dalam set data tanpa missing value. Bakal kedua adalah
observasi lengkap berikutnya (tanpa missing data) yang dipisahkan dari bakal
pertama oleh jarak minimum khusus.
Ada
tiga prosedur dalam metode non hirarkhi, yaitu :
a. Sequential
threshold
Metode
ini dimulai dengan memilih bakal cluster dan menyertakan seluruh objek dalam
jarak tertentu. Jika
seluruh objek dalam jarak tersebut disertakan, bakal cluster kedua terpilih,
kemudian proses terus berlangsung seperti sebelumnya.
b. Parallel
Threshold
Metode
ini memilih beberapa bakal cluster secara simultan pada permulaannya dan
menandai objek-objek dengan jarak permulaan ke bakal terdekat.
c. Optimalisasi
Metode
ketiga ini mirip dengan kedua metode sebelumnya kecuali pada penandaan ulang
terhadap objek-objek.
Tahap Kelima : Interpretasi terhadap Cluster
Tahap Kelima : Interpretasi terhadap Cluster
Tahap
interpretasi meliputi pengujian tiap cluster dalam term untuk menamai dan
menandai dengan suatu label yang secara akurat dapat menjelaskan kealamian
cluster. Proes ini dimulai dengan suatu ukuran yang sering digunakan yaitu
centroid cluster.
Membuat
profil dan interpretasi cluster tidak hanya tidak hanya untuk memoeroleh suatu
gambaran saja melainkan pertama, menyediakan suatu rata-rata untuk menilai
korespondensi pada cluster yang terbentuk, kedua, profil cluster memberikan
araha bagi penilainan terhadap signifikansi praktis.
Tahap Keenam: Proses Validasi dan Pembuatan Profil (PROFILING) Cluster
Tahap Keenam: Proses Validasi dan Pembuatan Profil (PROFILING) Cluster
A. Proses validasi solusi cluster
Proses
validasi bertujuan menjamin bahwa solusi yang dihasilkan dari analisis cluster
dapat mewakili populasi dan dapat digeneralisasi untuk objek lain. Pendekatan
ini membandingkan solusi cluster dan menilai korespondensi hasil. Terkadang
tidak dapat dipraktekkan karena adanya kendala waktu dan biaya atau
ketidaktersediaan ibjek untuk analisis cluster ganda.
B.
Pembuatan Profil ( PROFILING)Solusi Cluster
Tahap
ini menggambarkan karakteristik tiap cluster untuk menjelaskan cluster-cluster
tersebut dapat dapat berbeda pada dimensi yang relevan. Titik beratnta pada
karakteristik yang secara signifikan berbeda antar clustre dan memprediksi
anggota dalam suatu cluster khusus.
Statistik yang
berkaitan dengan analisis cluster
Sebelum
membahas statistik yang berkaitan dengan analisis cluster, perlu disebutkan
bahwa kebanyakan metode pengclusteran merupakan prosedur yang relatif sederhana
yang tidak didukung dengan suatu penalaran statistik yang ekstensif. Jadi,
analisis cluster sangat kontras apabila dibandingkan dengan analisis varian,
regresi berganda, analisis deskriminan dan analisis faktor yang didasarkan pada
penalaran statistik yang sangat ekstensif.
Skedul
aglomerasi (aglomeration schedule)
ialah skedul yang memberikan informasi tentang objek atau kasus yang akan
digabung (dikelompokkan, dimasukkan dalam cluster) pada setiap tahap, pada
suatu proses pengclusteran yang hierarki.
Rata-rata
cluster (cluster centroid) ialah nilai
rata-rata variabel dari semua objek atau kasus dalam suatu klaster tertentu.
Pusat
klaster (cluster centers) ialah titik
awal dimulainya pengelompokan di dalam pengclusteran non-hierarki, cluster
dibangun/dibentuk di sekitar titik-titik ini atau benih (seeds).
Keanggotaan
cluster (cluster membership) ialah
keanggotaan yang menunjukkan cluster, untuk mana setiap objek/kasus menjadi
anggotanya.
Dendogram, juga
disebut grafik pohon, suatu alat grafis untuk menyajikan hasil pengclusteran.
Garis vertikal atau tegak mewakili cluster yang digabung bersama. Posisi garis
pada skala menunjukkan jarak untuk mana cluster digabung. Dendogram harus
dibaca dari kiri ke kanan.
Jarak
antara pusat cluster (distance between
cluster centers) ialah jarak yang menunjukkan bagaimana terpisahnya
pasangan individu cluster. Cluster yang terpisah jauh sangat berbeda, dan
memang itu yang diinginkan. Diagram icicle
ialah penyajian berupa grafis dari hasil pengclusteran disebut demikian
karena bentuknya menyerupai suatu deretan es yang menggantung pada mulut gua.
Kolom menunjukkan objek/kasus yang akan dikelompokkan dan baris menunjukkan
banyaknya cluster. Icicle diagram dibaca
dari bawah ke atas. Matriks koefisien kemiripan/jarak (similarity/distance coefficient matrix) ialah matriks bagian bawah,
berupa matriks segitiga menurut pasangan jarak antara objek atau kasus.
Langkah-langkah yang doperlukan
untuk melakukan analisis cluster, bisa dilihat dari gambar di atas. Langkah
pertama merumuskan masalah pengclusteran dengan mendefinisikan
variabel-variabel yang dipergunakan untuk dasar pengclusteran (pengelompokan).
Kemudian ukuran jarak yang tepat harus dipilih. Ukuran jarak menentukan
kemiripan atau ketidakmiripan dari objek yang akan dikelompokkan (dimasukkan
dalam cluster). Beberapa prosedur pengclusteran sudah dikembangkan dan peneliti
harus memilih. Salah satu yang tepat untuk memecahkan masalah yang sedang
dihadapi. Untuk menentukan banyaknya cluster yang diperlukan, memerlukan
pertimbangan subjektif dari peneliti, selain berdasarkan hasil perhitungan
secara objektif. Cluster yang diperoleh harus diinterprestasikan, dinyatakan
dalam variabel-variabel yang dipergunakan untuk dasar pembentukan cluster dan
dinyatakan dalam penambahan variabel yang penting. Akhirnya, peneliti harus mengakses
validitas proses pengclusteran.
1.
Merumuskan
Masalah
Hal
yang paling penting di dalam perumusan masalah analisis cluster ialah pemilihan
variabel-variabel yang akan dipergunakan untuk pengclusteran. Memasukkan satu
atau dua variabel yang tidak relevan dengan maslah pengclusteran akan
mendistorsi hasil pengclusteran yang kemungkinan besar sangat bermanfaat.
Sebagai
ilustrasi, perhatikan suatu pengelompokan pelanggan (pembeli) berdasarkan pada
sikap mereka terhadap berbelanja. Berdasarkan hasil riset sebelumnya ada 6
variabel sikap yang diidentifikasi/dikenali. Pelanggan (pembeli) diminta untuk
mengekspresikan derajat/tingkat persetujuan, dengan pernyataan pada skala 7
butir di mana 7 sangat setuju dan 1 sangat tidak setuju.
V1
= berbelanja menyenangkan (shopping is
fun).
V2
= berbelanja, kurang baik atau tak bagus bagi anggaran (shopping is bad for your budget).
V3
= saya biasanya berbelanja sekaligus makan di luar (combine shopping with eating out).
V4
= saya berusaha mendapatkan harga termurah, sewaktu berbelanja (i try to get the best buys while shopping).
V5
= saya tidak begitu peduli dengan berbelanja (i don’t care about shopping).
V6
= Anda bisa menghemat uang banyak dengan cara melakukan perbandingan (you can save a lot of money by comparing
prices).
Data
diperoleh dari sampel sebanyak 20 orang responden disajikan dalam tabel 6.1.
Coba perhatikan, di dalam praktik, pengclusteran dilakukan dengan menggunakan
sampel yang lebih besar, yaitu sebanyak 100 orang responden atau lebih.
Penggunaan sampel sebanyak n = 20 orang, hanya untuk ilustri saja.
2.
Memilih
Ukuran Jarak atau Similaritas
Oleh karena tujuan pengclusteran ialah
untuk mengelompokkan objek yang mirip dalam cluster yang sama, maka beberapa ukuran
diperlukan untuk mengakses seberapa mirip atau berbeda objek-objek tersebut.
Pendekatan yang paling biasa ialah mengukur kemiripan dinyatakan dalam jarak
antara pasangan objek.
Objek dengan jarak yang lebih pendek
antara mereka akan lebih mirip satu sama lain dibandingkan dengan pasangan
dengan jarak yang lebih panjang. Ada beberapa cara untuk mengukur jarak antara
dua objek.
Ukuran
kemiripan yang paling biasa dipakai ialah jarak yuklidius atau Euclidean distance atau nilai
kuadratnya. The eucledean distance
ialah akar dari jumlah kuadrat perbedaan/ deviasi di dalam nilai untuk setiap
variabel. Ada juga ukuran jarak lainnya, yaitu the city-block or manhattan
distance antara dua objek merupakan jumlah perbedaan mutlak/ absolut di dalam
nilai untuk variabel. The chebyshev
distance antara dua objek ialah perbedaan mutlak/absolut yang maksimum di
dalam nilai untuk setiap variabel.
3.
Memilih Suatu Prosedur
Pengklasteran
Gambar 6.4
menunjukkan klasifikasi pengklasteran. Prosedur pengklasteran bisa hierarki dan
bisa juga non-hirarki. Pengklasteran hierarki ditandai dengan pengembangan
suatu hirarki atau struktur mirip pohon (tree like structure). Metode heirarki
bisa aglomeratif atau divisive (agglomerative or divisive). Pengklasteran
aglomeratif mulai dengan setiap objek dalam suatu klaster yang terpisah.
Klaster dibentuk dengan mengelompokkan ojek (responden) ke dalam klaster yang
semakin membesar (semakin banyak elemen atau objek yang menjadi anggotanya.
Proses ini dilanjutkan sampai semua objek menjadi anggota dari suatu klaster
tunggal (a single clauster). Sebaliknya pengklasteran devisif dimulai dari
semua objek dikelompokkan menjadi klaster tunggal. Kemudian klaster dibagi atau
dipisah, sampai setiap objek berada di dalam klaster yang terpisah.Daftar Pustaka :
Santoso,S. 2002. Buku Latihan SPSS Statistik
Multivariat. Jakarta : PT Elex
Media Komputindo
Supranto,J. 2010. Analisis Multivariat Arti &
Interpretasi. Jakarta : PT. Rineka
Cipta.
Tidak ada komentar:
Posting Komentar