Penerapan PSO Untuk Seleksi Fitur Pada Klasifikasi Dokumen Berita Menggunakan NBC

Erfian Junianto, Dwiza Riana

Abstract


Abstrak

Digitalisasi informasi membuat penyebaran informasi menjadi lebih cepat, aktual, dan murah. Informasi yang disebarkan tersebut terjadi dalam bentuk teks, yang mana banyak informasi yang terkandung di dalamnya. Karena banyaknya informasi penting yang terkandung di dalam dokumen teks (berita), maka dibutuhkan metode tertentu untuk menklasifikasikannya. Beberapa penelitian telah dilakukan, namum belum ada yang menerapkan Particle Swarm Optimization (PSO) untuk seleksi fitur pada klasifikasi dokumen. Maka, dalam penelitian ini akan diterapkan PSO untuk melakukan seleksi fitur, dan juga Naïve Bayes Classifier (NBC) untuk klasifikasinya. Data yang digunakan berasal dari 20 Newsgroups. Model percobaan membagi dokumen training dari 10% hingga 90%. Hal ini dilakukan untuk mengetahui model mana yang akan menghasilkan akurasi tertinggi. Dari percobaan dengan model tersebut diketahui, akurasi tertinggi yang dicapai adalah 85,42% dengan dokumen training sebesar 80% (15.077 dokumen). Sedangkan, percobaan menggunakan contoh dokumen yang berbeda, dengan kelas yang sudah ditentukan menghasilkan akurasi hingga 99,87%. Dokumen testing yang digunakan sebesar 20% (3.770 dokumen).

 

Kata Kunci: Particle Swarm Optimization, Naïve Bayes Classifier, Klasifikasi Dokumen, Akurasi, Text Mining.

 

Abstract

Information digitization makes information dissemination faster, actual, and cheaper. The information disseminated occurs in the form of text, which contains much of the information contained in it. Because of the vast amount of important information contained in text documents (news), it takes certain methods to classify them. Several studies have been conducted, but none have implemented Particle Swarm Optimization (PSO) for feature selection on document classification. So, in this research will be applied PSO to perform feature selection, and also Naïve Bayes Classifier (NBC) for its classification. The data used comes from 20 Newsgroups. The trial model divides training documents from 10% to 90%. This is done to find out which model will produce the highest accuracy. From the experiments with the model is known, the highest accuracy achieved is 85.42% with training documents of 80% (15,077 documents). Meanwhile, experiments using different document samples, with a predetermined class yielding accuracy of up to 99.87%. Test document used is 20% (3770 documents).

 

Keywords: Particle Swarm Optimization, Naïve Bayes Classifier, Document Classification, Accuracy, Text Mining.


Keywords


Particle Swarm Optimization, Naïve Bayes Classifier, Klasifikasi Dokumen, Akurasi, Text Mining.

References


Andri. (2014, Mei 07). Jurnalisme Digital: Crowdsourcing Berita Jurnalis. Dipetik 05 14, 2014, dari Institut Komunikasi Indonesia Baru: http://komunikasi.us/index.php/course/17-pengantar-teknologi-informasi-dan-komunikasi/1479-jurnalisme-digital-crowdsourcing-berita-jurnalis

Dalal, M. K., & Zaveri, M. A. (2011). Automatic Text Classification: A Techical Review. International Journal of Computer Applications, 28(2), 37-40.

Destuardi, I., & Sumpeno, S. (2009). Klasifikasi Emosi untuk Teks Berbahasa Indonesia Menggunakan Metode Naive Bayes. Seminar Nasional Pascasarjana IX-ITS.

Dewi, I. N., & Supriyanto, C. (2013). Klasifikasi Teks Pesan Spam Menggunakan Algoritma Naive Bayes. Seminar Nasional Teknologi Informasi & Komunikasi Terapan, 156-160.

Feldman, R., & Sanger, J. (2007). The Text Mining Handbook Advanced Approaches in Analyzing Unstructured Data. Cambridge: Cambridge University Press.

Ghosh, S., Roy, S., & Bandyopadhyay, S. K. (2012). A Tutorial Review on Text Mining Algorithms. International Journal of Advanced Research in Computer and Communication Engineering, 223-233.

Hamzah, A. (2012). Klasifikasi Teks dengan Naive Bayes Classifier (NBC) untuk Pengelompokan Teks Berita dan Abstrak Akademis. Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST) Periode III, Yogyakarta, 269-277.

Isa, D., Hong, L. L., Kallimani, V., & Rajkumar, R. (2008). Text Document Pre-Processing using Bayes Formula for Classification Based on the Vector Space Model. Computer and Information Science, 1(4), 79-90. Retrieved 2014

Korde, V., & Mahender, C. (2012). Text Classification and Classifier: A Survey. International journal of Artificial Intelligence & Applications (IJAIA), 85-99.

Polettini, N. (2004). The Vector Space Model in Information Retrieval - Term Weighting Problem. 1-9.

Samodra, J., Sumpeno, S., & Hariadi, M. (2009). Klasifikasi Dokumen Teks Berbahasa Indonesia dengan Menggunakan Naive Bayes. Seminar Nasional Electrical, informatic, and it's Education.

Syafrullah, M., & Salim, N. (2010). Improving Term Extraction Using Particle Swarm Optimization Techniques. Journal of Computing, 2(2), 116-120.

Tu, C.-J., Chuang, L.-Y., Chang, J.-Y., & Yang, C. (2007). Feature Selection Using PSO-SVM. IAENG Intarnational Journal of Computer Science.

Wahono, R. S., & Suryana, N. (2013). Combining Particle Swarm Optimization based Feature Selection and Bagging Technique for Software Defect Prediction. International Journal of Software Engineering and Its Applications, 7(5), 153-166.

Weiss, S. M., Indurkhya, N., Zhang, T., & Damerau, F. J. (2005). Text Mining: Predictive Methods for Analyzing Unstructured Information. United States of America: Springer.

Wibisono, Y. (2005). Klasifikasi Berita Berbahasa Indonesia menggunakan Naive Bayes. Seminar Nasional Matematika Universitas Pendidikan Indonesia.

Widiasri, M., Justitia, A., & Arifin, A. Z. (2011). Penerapan Particle Swarm Optimization untuk Penentuan Parameter Regularisasi pada Kernel Regularized Discriminant Analysis. Industrial Electronics Seminar, 61-66.

Xue, B., Zhang, M., & Browne, W. (2012). Multi-Objective Particle Swarm Optimization (PSO) for Feature Selection. GECCO'12.




DOI: https://doi.org/10.31294/ji.v4i1.1810

Refbacks

  • There are currently no refbacks.


Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

Index by:

 
  
Published by Department of Research and Public Service (LPPM) Universitas Bina Sarana Informatika with supported Relawan Jurnal Indonesia

Jl. Kramat Raya No.98, Kwitang, Kec. Senen, Kota Jakarta Pusat, DKI Jakarta 10450
Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License