Selasa, 26 Mei 2015

Analisis CLuster || Bagian 2

2.1         Konsep Dasar
Analisis cluster merupakan suatu kelas teknik, dipergunakan untuk mengklasifikasi objek atau kasus (responden) ke dalam kelompok yang relatif homogen, yang disebut cluster. Objek/kasus dalam setiap kelompok cenderung mirip satu sama lain dan berbeda jauh (tidak sama) dengan objek dari cluster lainnya. Analisis cluster juga disebut analisis klasifikasi atau taksonomi numeric (numerical taxonomy). Kita berkenaan dengan prosedur pengclusteran di mana setiap objek hanya masuk ke dalam satu cluster saja, tidak terjadi tumpang tindih .
Perhatikan bahwa setiap objek/kasus/pembeli hanya masuk ke dalam 1 cluster dan tidak terjadi tumpang tindih, cluster saling meniadakan. Di sana juga menunjukkan hasil pengclusteran yang sering terjadi dalam praktik yaitu terjadi tumpang tindih, artinya objek yang seharusnya menjadi anggota cluster 1, menjadi angota cluster 2, dan sebagainya. Misalnya, di Jakarta orang kaya tinggal di Menteng atau Pondok Indah, orang tidak kaya di daerah Pesing. Di Menteng atau di Pondok Indah, memang ada orang tidak kaya, tetapi sedikit, juga di Pesing ada orang kaya tetapi juga sedikit. Kita tetap lebih aman mengatakan orang kaya di Jakarta tinggal di Menteng dan yang tidak kaya di daerah Pesing. Probalilitas orang kaya tinggal di Pesing atau orang tidak kaya tinggal di Pondok Insah sangat kecil. Pondok indah cluster orang kaya Pesing cluster orang tidak kaya.Analisis cluster telah dipergunakan di dalam pemasaran untuk berbagai tujuan, termasuk sebagai berikut.
a.       Membuat segmen pasar atau segmenting the market. Sebagai contoh pelanggan luar atau pembeli sering diclusterkan berdasarkan manfaat atau keuntungan yang diperoleh dari pembelian barang. Setiap cluster akan terdiri dari pelanggan/pembeliyang relatif homogen, dinyatakan dalam manfaat yang dicari. Pendekatan ini disebut segmentasi manfaat (benefit segmentation).
b.      Memahami perilaku pembeli (understanding buyer behaviours). Analisis cluster bisa dipergunakan untuk mengenali/mengidentifikasikan kelompok pembeli yang homogen atau relatif homogen. Kemudian perilaku dalam pembelian untuk setiap kelompok mungkin perlu dikaji secara terpisah. Responden (pembeli) dikelompokkan di dasarkan pada self-reported importance yang terkait pada setiap faktor pilihan yang dipergunakan untuk memilih toko atau mall di mana para pembeli membeli barang yang dibutuhkan.
Analisis cluster juga telah dipergunakan untuk mengenali/mengidentifikasi jenis strategi yang dipergunakan oleh pembeli mobil untuk mendapatkan informasi eksternal.
c.       Mengenali peluang produk baru (identifying new product opportunities). Dengan mengclusterkan merek dan produk, competitive set di dalam pasar bisa ditentukan. Merek di dalam cluster yang sama, bersaing sengit satu sama lain, daripada merek dari cluster lain. Suatu perusahaan mengkaji tawaran yang baru dibandingkan dengan tawaran dari pesaing untuk mengenali peluang produk baru yang potensial.
d.      Memilih uji pasar (selecting test market). Dengan jalan mengelompokkan kota ke dalam cluster yang homogen, dimungkinkan untuk memilih kota yang bisa dibandingkan untuk menguji berbagai jenis strategi. Misalnya kota dikelompokkkan menjadi kelompok (cluster), kota dagang, kota wisata, kota seni/budaya, kota industri.
e.       Mereduksi data (reducing data). Analisis cluster, bisa dipergunakan sebagai suatu alat mereduksi data secara umum, untuk mengembangkan cluster atau sub-grup dari data yang mudah dikelola (manageable) dari kumpulan data asli, secara individual. Analisis multivariate yang berlanjut didasarkan pada cluster bukan pada observasiindividual. Sebagai contoh, untuk menguraikan perbedaan perilaku di dalam penggunaan produk, pembeli mungkin dicluster pertama kali ke dalam kelompok. Perbedaan antara kelompok, mungkin dikaji dengan menggunakan analisis diskriminan ganda.
  Proses Analisis Cluster.Sebagaimana teknik multivariat lain proses analisis cluster dapat dijelaskan dalam enam tahap sebagai berikut :
Tahap Pertama : Tujuan Analisis Cluster
Tujuan utama analisis cluster adalah mempartisi suatu set objek menjadi dua kelompok atau lebih berdasarkan kesamaan karakteristik khusus yang dimilikinya.
Dalam pembentukan kelompok/cluster  dapat dicapai tiga tujuan, yaitu :
a.      Deskripsi klasifikasi (taxonomy description)
Penerapan anallisis cluster secara tradisisonal bertujuan mengeksplorasi dan membentuk suatu klasisfikasi/taksonomi secara empiris. Karena kemampuan partisinya analisis cluster dapat diterapkan secara luas. Meskipun secara empiris merupakan teknik eksplorasi analisis cluster dapat pula digunakan untuk tujuan konfirmasi.
b.    Penyederhanaan Data
Penyederhanaan data merupakan bagian dari suatu taksonomi. Dengan struktur yang terbatas observasi/objek dapat dikelompokkan untuk analisis selanjutnya.
c.    Identifikasi Hubungan (Relationship Identification)
Hubunganantar objek diidentifikasi secara empiris. Struktur analisis cluster yang sederhana dapat menggambarkan adanya hubungan atau kesamaan dan perbedaan yang tidak dinyatakan sebelumnya.

Tahap Kedua : Desain Penelitian dalam Analisis Cluster
Tiga hal penting dalam tahap ini adalah pendeteksian outlier, mengukur kesamaan, dan standarisasi data.
A. Pendeteksian Outlier
Outlier adlah suatu objek yang sangat berbeda dengan objek lainnya. Outlier dapat digambarkan sebagai observasi yang secara nyata kebiasaan, tidak mewakili populasi umum, dan adanya undersampling dapat pula memunculkan outlier. Outlier menyebabkan menyebabkan struktur yang tidak benar dan cluster yang terbentuk menjadi tidak representatif.
 B. Mengukur Kesamaan antar Objek
Konsep kesamaan adalah hal yang fundamental dalam analisis cluster. Kesamaan antar objek merupakan ukuran korespondensi antar objek. Ada tiga metode yang dapat diterapkan, yaitu ukuran korelasi, ukuran jarak, dan ukuran asosiasi.
a.       Ukuran Korelasi
Ukuran ini dapat diterapkan pada data dengan skala metrik, namun jarang digunakan karena titik bertnya pada nilai suatu pola tertentu, padahal tisik berat analisis cluster adalah besarnya objek. Kesamaan antar objek dapat dilihat dari koefisien korelasi antar pasangan objek yang diukur dengan beberapa variabel.

b.      Ukuran Jarak
Merupakan ukuran yang paling sering digunakan. Diterapkan untuk data berskala metrik. Sebenarnya merupakan ukuran ketidakmiripan, dimana jarak yang besar menunjukkan sedikit kesamaan sebaliknya jarak yang pendek/kesil menunjukkan bahwa suatu objek makin mirip dengan objek lain. Bedanya dengan ukuran korelasi adalah bnahwa ukuran jarak fokusnya pada besarnya nilai. Cluster berdasarkan ukuran korelasi bisa saja tidak memiliki kesamaan nilai tapi memiliki kesamaan pola, sedangkan cluster dberdasrkan ukuran jarak lebih memiliki kesamaan nilai meskipun polanya berbeda.
Ada beberapa tipe ukuran jarak antara lain jarak Euklidian, jarak city-Box, dan jarak Mahalanobis. Ukuran yang paling sering digunakan adalah jarak Euklidian. Jarak Euklidian adalah besarnya jarak suatu garis lurus yang menghubungkan antar objek.
c.       Ukuran Asosiasi
Ukuran asosiasi dipakai untuk mengukur data berskala nonmetrik (nominal atau ordinal).              
2.3         Standarisasi Data
a.     Standarisasi Variabel
Bentuk paling umum dalam standarisasi variabel adalah konversi setiap variabel terhadap skor atandar ( dikenal dengan Z score) dengan melakukan substraksi nilai tengan dan membaginyadengan standar deviasi tiap variabel.
b.     Standarisasi Data
Berbeda dengan standarisasi variabel, standarisasi ndata dilakukan terhadap observasi/objek yang akan dikelompokkan.

Tahap Ketiga : Asumsi-asumsi dalam Analisis Cluster
Seperti hal teknik analisis lain,analisis cluster juga menetapkan adanya suatu asumsi. Ada dua asumsi dalam analisis cluster, yaitu :
     A.   Kecukupan Sampel untuk merepresentasikan/mewakili Populasi
Biasanya suatu penelitian dilakukan terhadap populasi diwakili oleh sekelompok sampel. Sampel yang digunakan dalam analisis ckuster harus dapat mewakili populasi yang ingin dijelaskan, karena analisis ini baik jika sampel representatif. Jumlah sampel yang diambil tergantung penelitinya, seorang peneliti harus yakin bahwa sampil yang diambil representatif terhadap populasi.
B.    Pengaruh Multukolinieritas
Ada atau tidaknya multikolinieritas antar variabel sangat diperhatikan dalam analisis cluster karena hal itu berpengaruh, sehingga variabel-variabel yang bersifat multikolinieritas secara eksplisit dieprtimbangkan dengan lebih seksama.
Tahap Keempat : Proses Mendapatkan Cluster dan Menilai kelayakan secara keseluruhan
Ada dua proses penting yaitu algoritma cluster dalam pembentukan cluster dan menentukan jumlah cluster yang akan dibentuk. Keduanya mempunyai implikasi substansial tidak hanya pada hasil yang diperoleh tetapi juga pada interpretasi yang akan dilakukan terhadap hasil tersebut.
2.4         Algoritma Cluster
Algoritma cluster harus dapat memaksimalkan perbedaan relatif cluster terhadap variasi dalam cluster. Dua metode paling umum dalam algoritma cluster adalahmetode hirarkhi dan metode non hirarkhi. Penentuan metode mana yag akan dipakai tergantung kepada peneliti dan konteks penelitian dengan tidak mengabaikan substansi, teori dan konsep yang berlaku. Keduanya memiliki kelebihan sendiri-sendiri. Keuntungan metode hirarkhi adalah cepat dalam proses pengolahan sehingga menghemat waktu, namun kelemahannya metode ini dapat menimbulkan kesalahan. Selain itu tidak baik diterapkan untuk menganalisis sampel dengan ukuran besar. Metode Non Hirarkhi memiliki keuntungan lebih daripada metode hirarkhi. Hasilnya memiliki sedikit kelemahan pada data outlier, ukuran jarak yang digunakan, dan  termasuk variabel tak relevan atau variabel yang tidak tepat. Keuntungannya hanya dengan menggunakan titik bakal nonrandom, penggunaan metode non hirarkhi untuk titik bakal  random  secara nyata lebih buruk dari pada metode hirarkhi.
Alternatif lain adalah dengan mengkombinasikan kedua metode ini. Pertama gunakan metode hirarkhi kemudian dilanjutkan dengan metode non hirarkhi.              
A.  Metode Hirarkhi
Tipe dasar dalam metode ni adalah aglomerasi dan pemecahan. Dalam metode aglomerasi tiap observasi pada mulanya dianggap sebagai cluster tersendiri sehingga terdapat cluster sebyak jumlah observasi. Kemudian dua cluster yang terdekat kesamaannya digabung menjadi suatu cluster babru, sehingga jumlah cluster berkurang satu pada tiap tahap. Sebaliknya pada metode pemecahan dimulai dari satu cluster besar yang mengandung seluruh observasi, selanjutnya observasi-observasi yang paling tidak sama dipisah dan dibentuk cluster-cluster yang lebih kecil. Proses ini dilakukan hingga tiap observasi menjadi cluster sendiri-sendiri.
Hal penting dalam metode hirarkhi adalah bahwa hasil pada tahap sebelumnya selalu bersarang di dalam hasil pada tahap berikutnya, membentuk sebuah pohon.
Ada lima metode aglomerasi dalam pembentukan cluster, yatiu :
a. Pautan Tunggal (Single Linkage)
Metode ini didasarkan pada jarak minimum. Dimulai dengan dua objek yang dipisahkan dengan jarak paling pendek  maka keduanya akan ditempatkan pada cluster pertama, dan seterusnya. Metode ini dikenal pula dengan nama pendekatan tetangga terdekat.
             b. Pautan Lengkap (Complete Linkage)
Disebut juga pendekatan tetangga terjauh. Dasarnya adalah jarak maksimum. Dalam metode ini seluruh objek dalam suatu cluster dikaitkan satu sama lain pada suatu jarak maksimuma atau dengan kesamaan minimum.
             c. Pautan Rata-rata (Average Linkage)
Dasarnya adalah jarak rata-rata antar observasi. pengelompokan dimulai dari tengan atau pasangan observasi dengan jarak paling mendekati jarak rata-rata. 
             d. Metode Ward (Ward’s Method)
Dalam metode ini  jarak antara dua cluster adalah jumlah kuadrat antara dua cluster untuk seluruh variabel. Metode ini cenderung digunakan untuk mengkombinasi cluster-cluster dengan jumlah kecil.
e. Metode Centroid
Jarak antara dua cluster adalah jarak antar centroid cluster tersebut. Centroid cluster adalah nilai tengah observasi pada variabel dalam suatu set variabel cluster. Keuntungannya adalah outlier hanya sedikit berpengaruh jika dibandingkan dengan metode lain.
            B. Metode Non Hirarkhi
Masalah utama dalam metoda non hirarkhi adalah bagaimana memilih bakal cluster. Harus disadari pengaruh pemilihan bakal cluster terhadap hasil akhir analisis cluster. Bakal cluster pertama adalah observasi pertama dalam set data tanpa missing value. Bakal kedua adalah observasi lengkap berikutnya (tanpa missing data) yang dipisahkan dari bakal pertama oleh jarak minimum khusus.
Ada tiga prosedur dalam metode non hirarkhi, yaitu :
a.       Sequential threshold
Metode ini dimulai dengan memilih bakal cluster dan menyertakan seluruh objek dalam jarak tertentu. Jika seluruh objek dalam jarak tersebut disertakan, bakal cluster kedua terpilih, kemudian proses terus berlangsung seperti sebelumnya.
b.      Parallel Threshold
Metode ini memilih beberapa bakal cluster secara simultan pada permulaannya dan menandai objek-objek dengan jarak permulaan ke bakal terdekat.
c.       Optimalisasi
Metode ketiga ini mirip dengan kedua metode sebelumnya kecuali pada penandaan ulang terhadap objek-objek.

Tahap Kelima : Interpretasi terhadap Cluster
Tahap interpretasi meliputi pengujian tiap cluster dalam term untuk menamai dan menandai dengan suatu label yang secara akurat dapat menjelaskan kealamian cluster. Proes ini dimulai dengan suatu ukuran yang sering digunakan yaitu centroid cluster.
Membuat profil dan interpretasi cluster tidak hanya tidak hanya untuk memoeroleh suatu gambaran saja melainkan pertama, menyediakan suatu rata-rata untuk menilai korespondensi pada cluster yang terbentuk, kedua, profil cluster memberikan araha bagi penilainan terhadap signifikansi praktis.

Tahap Keenam: Proses Validasi dan Pembuatan Profil (PROFILING) Cluster
A.  Proses validasi solusi cluster
Proses validasi bertujuan menjamin bahwa solusi yang dihasilkan dari analisis cluster dapat mewakili populasi dan dapat digeneralisasi untuk objek lain. Pendekatan ini membandingkan solusi cluster dan menilai korespondensi hasil. Terkadang tidak dapat dipraktekkan karena adanya kendala waktu dan biaya atau ketidaktersediaan ibjek untuk analisis cluster ganda.
B. Pembuatan Profil ( PROFILING)Solusi Cluster
Tahap ini menggambarkan karakteristik tiap cluster untuk menjelaskan cluster-cluster tersebut dapat dapat berbeda pada dimensi yang relevan. Titik beratnta pada karakteristik yang secara signifikan berbeda antar clustre dan memprediksi anggota dalam suatu cluster khusus.

Statistik yang berkaitan dengan analisis cluster
Sebelum membahas statistik yang berkaitan dengan analisis cluster, perlu disebutkan bahwa kebanyakan metode pengclusteran merupakan prosedur yang relatif sederhana yang tidak didukung dengan suatu penalaran statistik yang ekstensif. Jadi, analisis cluster sangat kontras apabila dibandingkan dengan analisis varian, regresi berganda, analisis deskriminan dan analisis faktor yang didasarkan pada penalaran statistik yang sangat ekstensif.
Skedul aglomerasi (aglomeration schedule) ialah skedul yang memberikan informasi tentang objek atau kasus yang akan digabung (dikelompokkan, dimasukkan dalam cluster) pada setiap tahap, pada suatu proses pengclusteran yang hierarki.
Rata-rata cluster (cluster centroid) ialah nilai rata-rata variabel dari semua objek atau kasus dalam suatu klaster tertentu.
Pusat klaster (cluster centers) ialah titik awal dimulainya pengelompokan di dalam pengclusteran non-hierarki, cluster dibangun/dibentuk di sekitar titik-titik ini atau benih (seeds).
Keanggotaan cluster (cluster membership) ialah keanggotaan yang menunjukkan cluster, untuk mana setiap objek/kasus menjadi anggotanya.
Dendogram, juga disebut grafik pohon, suatu alat grafis untuk menyajikan hasil pengclusteran. Garis vertikal atau tegak mewakili cluster yang digabung bersama. Posisi garis pada skala menunjukkan jarak untuk mana cluster digabung. Dendogram harus dibaca dari kiri ke kanan.
Jarak antara pusat cluster (distance between cluster centers) ialah jarak yang menunjukkan bagaimana terpisahnya pasangan individu cluster. Cluster yang terpisah jauh sangat berbeda, dan memang itu yang diinginkan. Diagram icicle ialah penyajian berupa grafis dari hasil pengclusteran disebut demikian karena bentuknya menyerupai suatu deretan es yang menggantung pada mulut gua. Kolom menunjukkan objek/kasus yang akan dikelompokkan dan baris menunjukkan banyaknya cluster. Icicle diagram dibaca dari bawah ke atas. Matriks koefisien kemiripan/jarak (similarity/distance coefficient matrix) ialah matriks bagian bawah, berupa matriks segitiga menurut pasangan jarak antara objek atau kasus.
            Langkah-langkah yang doperlukan untuk melakukan analisis cluster, bisa dilihat dari gambar di atas. Langkah pertama merumuskan masalah pengclusteran dengan mendefinisikan variabel-variabel yang dipergunakan untuk dasar pengclusteran (pengelompokan). Kemudian ukuran jarak yang tepat harus dipilih. Ukuran jarak menentukan kemiripan atau ketidakmiripan dari objek yang akan dikelompokkan (dimasukkan dalam cluster). Beberapa prosedur pengclusteran sudah dikembangkan dan peneliti harus memilih. Salah satu yang tepat untuk memecahkan masalah yang sedang dihadapi. Untuk menentukan banyaknya cluster yang diperlukan, memerlukan pertimbangan subjektif dari peneliti, selain berdasarkan hasil perhitungan secara objektif. Cluster yang diperoleh harus diinterprestasikan, dinyatakan dalam variabel-variabel yang dipergunakan untuk dasar pembentukan cluster dan dinyatakan dalam penambahan variabel yang penting. Akhirnya, peneliti harus mengakses validitas proses pengclusteran.
1.         Merumuskan Masalah
Hal yang paling penting di dalam perumusan masalah analisis cluster ialah pemilihan variabel-variabel yang akan dipergunakan untuk pengclusteran. Memasukkan satu atau dua variabel yang tidak relevan dengan maslah pengclusteran akan mendistorsi hasil pengclusteran yang kemungkinan besar sangat bermanfaat.
Sebagai ilustrasi, perhatikan suatu pengelompokan pelanggan (pembeli) berdasarkan pada sikap mereka terhadap berbelanja. Berdasarkan hasil riset sebelumnya ada 6 variabel sikap yang diidentifikasi/dikenali. Pelanggan (pembeli) diminta untuk mengekspresikan derajat/tingkat persetujuan, dengan pernyataan pada skala 7 butir di mana 7 sangat setuju dan 1 sangat tidak setuju.
V1 = berbelanja menyenangkan (shopping is fun).
V2 = berbelanja, kurang baik atau tak bagus bagi anggaran (shopping is bad for your budget).
V3 = saya biasanya berbelanja sekaligus makan di luar (combine shopping with eating out).
V4 = saya berusaha mendapatkan harga termurah, sewaktu berbelanja (i try to get the best buys while shopping).
V5 = saya tidak begitu peduli dengan berbelanja (i don’t care about shopping).
V6 = Anda bisa menghemat uang banyak dengan cara melakukan perbandingan (you can save a lot of money by comparing prices).
Data diperoleh dari sampel sebanyak 20 orang responden disajikan dalam tabel 6.1. Coba perhatikan, di dalam praktik, pengclusteran dilakukan dengan menggunakan sampel yang lebih besar, yaitu sebanyak 100 orang responden atau lebih. Penggunaan sampel sebanyak n = 20 orang, hanya untuk ilustri saja.
2.         Memilih Ukuran Jarak atau Similaritas
Oleh karena tujuan pengclusteran ialah untuk mengelompokkan objek yang mirip dalam cluster yang sama, maka beberapa ukuran diperlukan untuk mengakses seberapa mirip atau berbeda objek-objek tersebut. Pendekatan yang paling biasa ialah mengukur kemiripan dinyatakan dalam jarak antara pasangan objek.
Objek dengan jarak yang lebih pendek antara mereka akan lebih mirip satu sama lain dibandingkan dengan pasangan dengan jarak yang lebih panjang. Ada beberapa cara untuk mengukur jarak antara dua objek.
Ukuran kemiripan yang paling biasa dipakai ialah jarak yuklidius atau Euclidean distance atau nilai kuadratnya. The eucledean distance ialah akar dari jumlah kuadrat perbedaan/ deviasi di dalam nilai untuk setiap variabel. Ada juga ukuran jarak lainnya, yaitu the city-block or manhattan distance antara dua objek merupakan jumlah perbedaan mutlak/ absolut di dalam nilai untuk variabel. The chebyshev distance antara dua objek ialah perbedaan mutlak/absolut yang maksimum di dalam nilai untuk setiap variabel.
3.         Memilih Suatu Prosedur Pengklasteran
Gambar 6.4 menunjukkan klasifikasi pengklasteran. Prosedur pengklasteran bisa hierarki dan bisa juga non-hirarki. Pengklasteran hierarki ditandai dengan pengembangan suatu hirarki atau struktur mirip pohon (tree like structure). Metode heirarki bisa aglomeratif atau divisive (agglomerative or divisive). Pengklasteran aglomeratif mulai dengan setiap objek dalam suatu klaster yang terpisah. Klaster dibentuk dengan mengelompokkan ojek (responden) ke dalam klaster yang semakin membesar (semakin banyak elemen atau objek yang menjadi anggotanya. Proses ini dilanjutkan sampai semua objek menjadi anggota dari suatu klaster tunggal (a single clauster). Sebaliknya pengklasteran devisif dimulai dari semua objek dikelompokkan menjadi klaster tunggal. Kemudian klaster dibagi atau dipisah, sampai setiap objek berada di dalam klaster yang terpisah.

Daftar Pustaka :
Santoso,S. 2002. Buku Latihan SPSS  Statistik Multivariat. Jakarta : PT Elex

Media Komputindo
Supranto,J. 2010. Analisis Multivariat  Arti & Interpretasi.  Jakarta : PT. Rineka
Cipta.

Tidak ada komentar:

Posting Komentar