Perbandingan Optimasi Jumlah Klaster K-Means Menggunakan Metode Elbow, Silhouette Score dan DBI
Pada project kali ini aku menggunakan data yang berasal dari Selected socioeconomic indicators in Chicago, 2008–2012. Data tersebut dapat dilihat pada gambar di bawah ini.
Selanjutnya, lakukan pre-processing dengan cara membersihkan data yang memiliki missing value dan menghapus kolom yang tidak digunakan seperti kolom ‘community_area_number’.
Karena ukuran setiap data memiliki rentang yang cukup jauh maka untuk menyesuaikan range pada data gunakan minmax scaler seperti berikut.
from sklearn.preprocessing import MinMaxScaler
x_array = np.array(df.iloc[:, 1:8])
scaler = MinMaxScaler()
x_scaled = scaler.fit_transform(x_array)
x_scaled
Hasil dari scalling membuat data berada di antara 0–1. Hal ini berguna untuk memudahkan dalam proses klasterisasi.
Proses Algoritma K-Means
Pada proses algoritma k-means dilakukan percobaan sebanyak 4 kali dengan jumlah klaster dimulai dari 2 klaster hingga 5 klaster. Visualisasi dari percobaan tersebut dapat dilihat pada gambar berikut.
Untuk mendapatkan optimasi jumlah klaster terbaik ada beberapa metode yang dapat digunakan yaitu metode Elbow, Silhouette Score dan Davies Bouldin Index (DBI).
Metode Elbow
Dengan menggunakan metode elbow, jumlah klaster terbaik diambil dari titik yang membentuk siku dimana terjadi penurunan signifikan antara 2 titik klaster dan diikuti oleh nilai yang relatif konstan. Untuk hasil visualisasi dari metode elbow dapat dilihat pada gambar di bawah ini.
Dari gambar diatas terlihat garis mengalami patahan yang membentuk elbow atau siku pada saat klaster berjumlah 4. Hal itu didukung dengan adanya penurunan nilai yang signifikan pada titik klaster 4 dibandingkan dengan titik yang lainnya. Setelah dari titik klaster 4, penurunan nilai ke titik selanjutnya terlihat relatif konstan. Maka dari itu dengan menggunakan metode elbow diperoleh klaster optimal pada saat klaster berjumlah 4.
Metode Silhouette Score
Untuk mengevaluasi kualitas dari klaster yang telah terbentuk, gunakan metode silhouette score. Semakin tinggi nilai dari hasil silhouette score maka semakin baik pengelompokkan data dalam satu klaster. Jumlah klaster dan hasil dari nilai silhouette score dapat dilihat pada tabel dan gambar di bawah ini.
Pada gambar diatas terlihat bahwa jumlah klaster yang optimal menggunakan metode silhouette score terdapat pada saat klaster berjumlah 2 dengan nilai silhouette score 0,3985.
Metode Davies Bouldin Index (DBI)
Metode Davies Bouldin Index (DBI) digunakan untuk mengevaluasi klaster secara umum berdasarkan kuantitas dan kedekatan antar anggota klaster. Semakin kecil nilai DBI maka semakin baik klaster yang dihasilkan. Jumlah klaster dan hasil dari nilai DBI dapat dilihat pada tabel dan gambar di bawah ini.
Dari gambar di atas terlihat bahwa hasil optimasi jumlah klaster terbaik menggunakan metode DBI berada pada jumlah klaster 8 dengan nilai DBI 0,8362.