Penanganan Imbalanced Dataset dengan Pendekatan Ensemble  pada Klasifikasi Kemiskinan Provinsi Bengkulu

Winalia Agwil; Dyah Setyo Rini; Herlin Fransiska

Portal Conference FMIPA, Seminar Nasional Matematika, Statistika dan Aplikasinya (SNMSA) Tahun 2023

Penanganan Imbalanced Dataset dengan Pendekatan Ensemble pada Klasifikasi Kemiskinan Provinsi Bengkulu

Winalia Agwil, Dyah Setyo Rini, Herlin Fransiska

Last modified: 2023-06-15

Abstract

Perkembangan teknologi yang semakin pesat memberikan kemudahan dalam proses pengumpulan, penyimpanan dan akses data dalam jumlah serta dimensi yang besar (big data). Pemanfaatan big data telah memberikan banyak manfaat terhadap ilmu dan kehidupan. Untuk memaksimalkan manfaat big data dengan tujuan mendapatkan informasi dan insight, dibutuhkan metode analisis modern yang dapat mengakomodir kondisi dan permasalahan data yang kompleks. Salah satu metode analisis yang dapat digunakan adalah machine learning. Machine learning merupakan sekumpulan metode yang digunakan untuk menemukan pola data secara otomatis dengan penggabungan aplikasi komputer dan algoritma matematika sehingga dapat digunakan untuk memprediksi maupun membuat keputusan (Murphy, 2012). Salah satu metode dalam machine learning adalah klasifikasi. Analisis klasifikasi sangat rentan apabila terdapat permasalahan imbalanced dataset seperti yang terdapat pada dataset kemiskinan yaitu proporsi antara rumah tangga miskin dan rumah tangga tidak miskin tidak seimbang sehingga dibutuh metode untuk menanggulangi hal ini yaitu Rusboost, Underbagging, SMOTEBoost, dan SMOTEBagging. Dari hasil yang ada diperoleh bahwa performa klasifikasi pada data training paling baik adalah jika imbalanced dataset ditanggulangi dengan SmoteBoost kemudian dimodelkan dengan Random Forest. Pada data testing juga performa klasifikasi paling baik adalah jika imbalanced dataset ditanggulangi dengan SmoteBoost kemudian dimodelkan dengan Random Forest.

Keywords

Imbalanced dataset, Kemiskinan, RusBoost, UnderBagging, SmoteBoost, SmoteBagging