Email Spam Filtering Dengan Algoritma Random Forest

Muhamad Abdul Ghani, Agus Subekti

Sari


Abstrak

Teknologi berbasis internet sudah menjadi kebutuhan primer. Berdasarkan hasil survey Badan Pusat Statistik bekerjasam dengan APJII, kegiatan pengiriman dan penerimaan email sudah mengalahkan posisi media sosial dengan mencapai 95.75%. Penggunaan email yang sangat intens dapat menimbulkan dampak positif dan negatif. Karena selain selain sebagai alat komunikasi, pada kenyataannya tidak semua orang menggunakan email  dengan baik dan bahkan ada banyak sekali penyalahgunaan email sehingga berpotensi untuk merugikan orang lain. Email yang disalahgunakan ini biasa dikenal sebagai spam atau junkmail (email sampah) yang mana email tersebut berisikan iklan, penipuan dan bahkan virus. Dalam penelitian ini dilakukan perbandingan beberapa metode klasifikasi data mining diantaranya yaitu Algoritma Naïve Bayes, SVM, J48, dan Random Forest dalam memprediksi spam email dengan tujuan agar algoritma terpilih merupakan yang paling akurat. Dari hasil pengujian menggunakan dengan mengukur kinerja dari keempat algoritma tersebut menggunakan Confusion Matrix dan ROC , diketahui bahwa algoritma Random Forest memiliki nilai accuracy paling tinggi, yaitu 94,22 % dan AUC 0,98 diikuti oleh  algoritma J48 dengan accuracy sebesar 92,70% dan AUC 0,95, SVM dengan nilai accuracy 86,48% dan AUC 0,84 dan terendah yaitu metode naive bayes dengan nilai accuracy sebesar 78,87% dan AUC 0,79.

Kata kunci: algoritma naive bayes, email spam, J48, random forest, support vector machine

 

Abstract

Internet-based technology has become a primary need. Based on the results of a survey by the Central Bureau of Statistics in cooperation with APJII, email sending and receiving activities have outperformed the position of social media by reaching 95.75%. The use of e-mail that is very intense can have positive and negative impacts. Because other than as a means of communication, in reality not everyone uses email well and there is even a lot of email abuse that has the potential to harm others. This misused email is commonly known as spam or junkmail (junk e-mail) which contains e-mail, fraud and even viruses. In this study a comparison of several data mining classification methods including the Naïve Bayes, SVM, J48, and Random Forest algorithms in predicting spam e-mail with the aim that the selected algorithm is the most accurate. From the test results using measuring the performance of the four algorithms using Confusion Matrix and ROC, it is known that the Random Forest algorithm has the highest accuracy value, which is 94.22% and AUC 0.98 followed by the J48 algorithm with accuracy of 92.70% and AUC 0.95, SVM with 86.48% accuracy value and 0.84 AUC and the lowest is the naive bayes method with accuracy value of 78.87% and AUC 0.79.

Keyword: J48, naive bayes algorithm, random forest, spam email, support vector machine

Teks Lengkap:

PDF

Referensi


Dang, V., & Croft, W. B. (n.d.). Feature Selection for Document Ranking using Best First Search and Coordinate Ascent, 2–5.

Mongkareng, D., Setiawan, N. A., & Permanasari, A. E. (2017). Implementasi Data Mining dengan Seleksi Fitur untuk Klasifikasi Serangan pada Intrusion Detection System ( IDS ), (gambar 2), 314–321.

Novelia, S., Pratiwi, D., Sutijo, B., & Ulama, S. (2016). Klasifikasi Email Spam dengan Menggunakan Metode Support Vector Machine dan k- Nearest, 5(2), 344–349.

Parveen, P., & Halse, P. G. (2016). Spam Mail Detection using Classification, 5(6),347–349. https://doi.org/10.17148/IJARCCE.2016.5674

Sharma, A. K. (2011). A Comparative Study of Classification Algorithms for Spam Email Data Analysis, 3(5), 1890–1895.

Tree-j, A. D. (2017). Algoritma decision tree-j48, k-nearest, dan zero-r pada kinerja akademik, 12–18.




Statistik Pengunjung Jurnal IJCIT
 
Lisensi Creative Commons

Ciptaan disebarluaskan di bawah Lisensi Creative Commons Atribusi-BerbagiSerupa 4.0 Internasional

Diterbitkan oleh LPPM AMIK BSI Tasikmalaya bekerja sama dengan Asosiasi Profesi Multi Media Indonesia