Penerapan Metode Random Over-Under Sampling Pada Algoritma Klasifikasi Penentuan Penyakit Diabetes

Eko Saputro, Didi Rosiyadi

Abstract


Penyakit  diabetes  merupakan salah satu penyakit yang mematikan dan jumlah penderita setiap tahunnya meningkat. Upaya pencegahan dan pengendalian diabetes ini sebaiknya dilakukan melalui edukasi deteksi dini sebagai identifikasi awal individu. Jumlah data penderita diabetes melitus yang banyak dan perlu dilakukan seleksi fitur-fitur pada dataset. Penggunaan teknik machine learning dapat memberikan kemudahan dalam melakukan pemodelan tetapi juga terdapat beberapa permasalahan. Penggunaan algoritma yang tidak sesuai akan menurunkan tingkat akurasi dari klasifikasi. Permasalahan yang lain yaitu apabila dataset yang digunakan merupakan dataset dengan distribusi kelas yang tidak seimbang. Untuk mengatasi permasalahan tersebut dengan menerapkan teknik pendekatan level data dengan menerapkan metode resampling serta membandingkan beberapa metode algoritma seperti Algoritma C4.5, Naive Bayes, K-Nearest Neightbour, Support Vector Machine, Neural Network dan Random Forest. Hasil kinerja yang diperoleh menunjukan bahwa model pengklasifikasi Random Over-Under Sampling Random Forest memiliki nilai accuracy yang lebih tinggi dibandingkan dengan  beberapa model lainnya dengan nilai accuracy sebesar 0,9808 atau 98,08% yang dan nilai AUC sebesar 0.9809 atau 98,09%. Pada pengujian dataset asli juga menghasilkan akurasi yang tinggi dengan nilai akurasi yaitu 0,9923 atau 99,23% dan nilai AUC  0,9919. Maka dapat disimpulkan bahwa Algoritma tersebut memiliki performa terbaik dan dapat digunakan untuk menyelesaikan masalah pada klasifikasi penentuan penyakit diabetes.

Kata Kunci: Klasifikasi diabetes, Random Over-Under Sampling, Random Forest

Diabetes is one of the deadly diseases. The number of sufferers is increasing every year. Efforts to prevent and control diabetes should be carried out through early detection as an individual early. The amount of data for people with diabetes mellitus is large and it is necessary to select features in the dataset. The use of machine learning techniques can provide convenience in modeling but there are also some problems. Inappropriate use will reduce the accuracy of the classification. Another problem is if the data set used is a data set with an unbalanced class distribution. To overcome this problem by applying a data level approach by applying the resampling method and comparing several algorithm methods such as the C4.5 Algorithm, Naive Bayes, K-Nearest Neighbor, Support Vector Machine, Neural Network and Random Forest. The results obtained indicate that the classifier of the Random Over-Under Sampling Random Forest model has a higher accuracy value compared to several other models with an accuracy value of 0.9808 or 98.08% and an AUC value of 0.9809 or 98.09%. In testing the original dataset, the quality of accuracy is also high with an accuracy value of 0.9923 or 99.23% and an AUC value of 0.9919. So it can be said that the algorithm has the best performance and can be used to solve problems in various diabetes diseases.

Keywords: Diabetes classification, Random Over-Under Sampling, Random Forest


Full Text:

PDF

References


Agrawal, K., Baweja, Y., Dwivedi, D., Agrawal, S., & Chaturvedi, P. (2017). A Comparison of Class Imbalance Techniques for Real-World Landslide Predictions. International Conference on Machine learning and Data Science. IEEE. doi:10.1109/MLDS.2017.21

Aulia, S., Hadiyoso, S., & Ramadhan, D. N. (2015). Analisis Perbandingan KNN dengan SVM untuk Klasifikasi Penyakit Diabetes Retinopati berdasarkan Citra Eksudat dan Mikroaneurisma. Jurnal ELKOMIKA, 3(1), 75-90.

Badr, W. (n.d.). towardsdatascience.com. Retrieved Juli 25, 2021, from https://towardsdatascience.com/having-an-imbalanced-dataset-here-is-how-you-can-solve-it-1640568947eb

Fatmawati , F. (2016). Perbandingan Algoritma Klasifikasi Data Miningmodel C4.5 Dan Naive Bayes Untuk Prediksi Penyakit Diabetes. Jurnal Techno Nusa Mandiri, 8(1). Retrieved from http://ejournal.nusamandiri.ac.id/index.php/techno/article/view/217/193

Han, J., Kamber, M., & Pei, J. (2012). Data Minning Concept And Techniques. California: Morgan Kaufmann.

He, H., Zhang, W., & Zhang, S. (2018). A novel ensemble method for credit scoring: adaption of different imbalance ratios. Expert Systems With Applications. doi:10.1016/j.eswa.2018.01.012

Ichsan. (2013, November). Sistem Pendukung Keputusan Pemilihan Penerima Beasiswa Mahasiswa Kurang Mampu Pada STMIK BUDIDARMA Medan Menerapkan Metode Profile Matching. Kursor, 5(1), 2. Retrieved April 14, 2016, from http://pelita-informatika.com/berkas/jurnal/1.%20TM%20Syahru.pdf

Jian, C., Gao, J., & Ao, Y. (2016). A New Sampling Method for Classifying Imbalanced Data Based on Support Vector Machine Ensemble. Neurocomputing. doi:http://dx.doi.org/10.1016/j.neucom.2016.02.006.

Nurahman, N., & Prihandoko, P. (n.d.). Perbandingan Hasil Analisis Teknik Data Mining Metode Decision Tree, Naive Bayes, SMO an Part Untuk Mendiagnosa Penyakit Diabetes Mellitus. INFORM. Retrieved from https://ejournal.unitomo.ac.id/index.php/inform/article/view/1403

Purnama, J. J., Rahayu, S., Nurdiani, S., Haryanti, T., & Mayangky, N. A. (2019). Analisis Algoritma Klasifikasi Neural Network Untuk Diagnosis Penyakit Diabetes. Indonesian Journal on Computer and Information Technology. Retrieved from http://ejournal.bsi.ac.id/ejurnal/index.php/ijcit

Rajesh, K., & Dhuli, R. (2018). Classification Of Imbalanced ECG beats using re-sampling techniques And AdaBoost ensemble classifier. Biomedical Signal Processing and Control, 41, 242-254.

Ren, F., Cao, P., Li, W., Zhao, D., & Zaiane, O. (2016). Ensemble Based Adaptive over-sampling method for imbalanced data Learning aided detection of microaneurysm. Computerized Medical Imaging and Graphics. doi:http://dx.doi.org/10.1016/j.compmedimag. 2016.07.011.

Saifudin, A., & Wahono, R. S. (2015). Pendekatan Level Data untuk Menangani Ketidakseimbangan Kelas pada Prediksi Cacat Software. Journal of Software Engineering, 1(2), 76–85.

Saputro, E., & Rosiyadi, D. (2021). Penerapan Metode Random Over-Under Sampling Pada Algoritma Klasifikasi Penentuan Penyakit Diabetes.

Suryanegara, G. A., Adiwijaya, & Purbolaksono, M. D. (2021). Peningkatan Hasil Klasifikasi pada Algoritma Random Forest untuk Deteksi Pasien Penderita Diabetes Menggunakan Metode Normalisasi. Jurnal RESTI(Rekayasa Sistem dan Teknologi Informasi), 5(1), 114 - 122.

Wanto, A., Siregar, N. M., Windarto, A. P., Hartama, D., & Ginantra, N. L. (2020). Data Mining : Algoritma dan Implementasi. (2020). . Yayasan Kita Menulis.

Xiao, J., Xie, L., He, C., & Jiang, X. (2012). Dynamic classifier ensemble model for customer classification with imbalanced class distribution. Expert Systems with Applications, 39, 3668-3675.

N. Nurahman and P. Prihandoko, " Perbandingan Hasil Analisis Teknik Data Mining Metode Decision Tree, Naive Bayes, SMO an Part Untuk Mendiagnosa Penyakit Diabetes Mellitus," INFORM.

S. Aulia, S. Hadiyoso and D. N. Ramadhan, "Analisis Perbandingan KNN dengan SVM untuk Klasifikasi Penyakit Diabetes Retinopati berdasarkan Citra Eksudat dan Mikroaneurisma," Jurnal ELKOMIKA, vol. 3, no. 1, pp. 75-90, 2015.




DOI: https://doi.org/10.31294/bi.v10i1.11739

DOI (PDF): https://doi.org/10.31294/bi.v10i1.11739.g5329

ISSN2338-9761

Dipublikasikan oleh LPPM Universitas Bina Sarana Informatika

Jl. Kramat Raya No.98, Kwitang, Kec. Senen, Kota Jakarta Pusat, DKI Jakarta 10450
Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License