Perbandingan Metode Klasifikasi pada Data dengan Imbalance Class dan Missing Value

Nofita Istiana, Arief Mustafiril

Abstract


Imbalance class dan missing value merupakan beberapa permasalahan dalam metode klasifikasi. Imbalance class berdampak pada hasil prediksi dimana kelas minoritas sering disalahklasifikasikan sebagai kelas mayoritas. Missing value menyebabkan beberapa algoritma dalam metode klasifikasi tidak dapat dijalankan. Pada penelitian ini, imbalance class ditangani dengan SMOTE, sedangkan missing value ditangani dengan imputasi rataan dan binning peubah. Metode klasifikasi yang dibandingkan dalam kasus ini adalah regresi logistik, bagging, boosting, random forest, dan support vector machine yang diaplikasikan pada data dummy status kolektibilitas debitur. Metode klasifikasi tersebut akan cenderung memprediksi data kelas mayor (debitur berstatus kolektibilitas baik), sehingga prediksi kelas minor (debitur berstatus kolektibilitas buruk) cenderung sedikit. Metode yang memberikan akurasi tertinggi yaitu random forest (missing value diimputasi dengan nilai rataan), yang menghasilkan akurasi sebesar 0.801, sensitivitas sebesar 0.593, dan spesivitas sebesar 0.807.

 

Imbalance class and missing value are some of the problems in classification method. Imbalance class causes the prediction of the minority class to be misclassified as the majority class. Missing value causes several algorithms in classification method cannot be run. In this study, imbalance class is handled by SMOTE, while missing value is handled by mean imputation and binning variable. The classification methods being compared in this study are logistic regression, bagging, boosting, random forest, and support vector machines which are applied to dummy data on debtors' collectibility status with total data 12459. The data contains 97.48 debtors with good collectibility status and 2.52 percent of debtors with bad collectibility status. The method that provides the highest accuracy is random forest (missing value imputed by mean value), which results in accuracy of 80.1 percent, sensitivity of 59.3 percent, and specificity of 80.7 percent


Keywords


metode klasifikasi; SMOTE; Weight of Evidence (WoE)

Full Text:

PDF

References


Agresti, A. (2002). Categorical Data Analysis. John Wiley & Sons, Inc. New Jersey: John Wiley & Sons, Inc.

Arrahimi, A. R., Ihsan, M. K., Kartini, D., Faisal, M. R., & Indriani, F. (2019). Teknik Bagging Dan Boosting Pada Algoritma CART Untuk Klasifikasi Masa Studi Mahasiswa. Jurnal Sains Dan Informatika, 5(1), 21–30. https://doi.org/10.34128/jsi.v5i1.171

Astuti, F. D., & Lenti, F. N. (2021). Implementasi SMOTE untuk Mengatasi Imbalance Class pada Klasifikasi Car Evolution Menggunakan K-NN. JUPITER, 13, 89–98.

Aulia, S., Hadiyoso, S., & Ramadan, D. N. (2015). Analisis Perbandingan KNN dengan SVM untuk Klasifikasi Penyakit Diabetes Retinopati berdasarkan Citra Eksudat dan Mikroaneurisma. ELKOMIKA: Jurnal Teknik Energi Elektrik, Teknik Telekomunikasi, & Teknik Elektronika, 3(1), 75. https://doi.org/10.26760/elkomika.v3i1.75

Dinaloni, D., & Putri, I. C. (2018). Pengaruh Keberlanjutan Usaha Dan Force Majeur Terhadap Kredit Bermasalah Pnpmmandiri Pedesaan Di Kecamatan Trowulan Kabupaten Mojokerto. Jurnal Pendidikan Ekonomi, Kewirausahaan, Bisnis, Dan Manajemen (JPEKBM), 2(1), 45–60.

Hendrawati, T. (2015). Kajian Metode Imputasi dalam Menangani Missing Data. Prosiding Seminar Nasional Matematika Dan Pendidikan Matematika UMS, 637–642. Retrieved from http://hdl.handle.net/11617/5804

Juhola, M., & Laurikkala, J. (2013). Missing values: How many can they be to preserve classification reliability? Artificial Intelligence Review, 40(3), 231–245. https://doi.org/10.1007/s10462-011-9282-2

Kotsiantis, S., Kanellopoulos, D., & Pintelas, P. (2006). Handling imbalanced datasets : A review. Science, 30(1), 25–36. Retrieved from http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.96.9248&rep=rep1&type=pdf

Mawarsari, U. (2016). Imputasi Missing Data Dengan K-Nearest Neighbor Danalgoritma Genetika. AdMathEdu, 6(1). https://doi.org/10.12928/admathedu.v6i1.4764

N, S. S., & Sudaryanto. (2022). Sintesis Fitur Density Based Feature Selection (DBFS) Dan Adaboots Dengan Xgboost Untuk Meningkatkan Performa Model Prediksi. Prosiding Seminar Nasional Sains Dan Teknologi, 305–313.

Nikmatul Kasanah, A., Muladi, & Pujianto, U. (2017). Penerapan Teknik SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Objektivitas Berita Online Menggunakan Algoritma KNN. Resti, 1(3), 196–201.

Prasetio, R. T., & Pratiwi. (2015). Penerapan Teknik Bagging Pada Algoritma Klasifikasi Untuk Mengatasi Ketidakseimbangan Kelas Dataset Medis. Jurnal Informatika, II(2), 395–403. Retrieved from https://ejournal.bsi.ac.id/ejurnal/index.php/ji/article/view/118

Siringoringo, R. (2018). Klasifikasi Data Tidak Seimbang Menggunakan Algoritma Smote Dan K-Nearest Neighbor. Jurnal ISD, 3(1), 44–49.

Wibawa, A. P., & Dkk. (2018). Metode-Metode Klasifikasi. Prosiding Seminar Ilmu Komputer Dan Teknologi Informasi, 3(1), 134.

Wibowo, A. (2015). Analisis Perbandingan Kinerja Metode Klasifikasi Dalam Data Mining. Jurnal Integrasi |, 7(1), 23–30.

Wijaya, J., Soleh, A. M., & Rizki, A. (2018). Penanganan Data Tidak Seimbang pada Pemodelan Rotation Forest Keberhasilan Studi Mahasiswa Program Magister IPB, 2(2), 32–40.

Zhou, Z.-H. (2012). Ensemble Methods: Foundations and Algorithms. London: CRC Press.




DOI: https://doi.org/10.31294/inf.v10i2.15540

Refbacks

  • There are currently no refbacks.


Copyright (c) 2023 Nofita Istiana; Arief Mustafiril

Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

Index by:

 
 Published LPPM Universitas Bina Sarana Informatika with supported by Relawan Jurnal Indonesia

Jl. Kramat Raya No.98, Kwitang, Kec. Senen, Jakarta Pusat, DKI Jakarta 10450, Indonesia
Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License