Perbandingan Algoritma Support Vector Machine dan K-Nearest Neighbor untuk Memprediksi Struktur Sekunder Protein

Anggi Tasari, Dewan Dinata Tarigan, Erika Nia Devina Br Purba, Kana Saputra S

Abstract


Pendekatan biologi komputasi telah maju secara eksponensial dalam prediksi struktur sekunder protein yang sangat penting untuk industri farmasi. Ekstraksi fitur protein di dalam laboratorium memiliki informasi yang cukup untuk prediksi struktur sekunder protein yang digunakan dalam studi bioinformatika. Memprediksi struktur sekunder protein merupakan suatu permasalahan yang terdapat dalam bidang Bioinformatika. Terdapat beberapa metode yang telah diterapkan dengan tingkat akurasi yang dihasilkan berbeda-beda. Penelitian ini bertujuan untuk membandingkan model prediksi Support Vector Machine dengan K-Nearest Neighbor dalam memprediksi struktur sekunder protein. Dalam penelitian ini, model Support Vector Machine dan K-Nearest Neighbor disajikan dalam dataset RS126 yang terdiri dari 126 data protein dan memiliki panjang urutan protein rata-rata 185 sekuens Data RS126 juga terdiri atas 32% alpha helix, 21% beta, dan 47% coil. Masing-masing model prediksi pada penelitian ini diberikan nilai lebar sliding window sebesar 15. Nilai K = 5, K=10, dan K= 15 untuk model prediksi KNN serta Nilai C = 1, Gamma = 0,1 dan Kernel Radial Basis Function untuk model prediksi SVM. Penggunaan model Support Vector Machine dan K-Nearest Neighbor digunakan untuk memperoleh hasil yang relavan serta akurat dalam prediksi struktur sekunder. Beberapa prinsip yang diusulkan memiliki klarifikasi biologis yang menarik dan relevan. Hasil yang diperoleh menegaskan bahwa keberadaan asam amino tertentu dalam urutan protein meningkatkan stabilitas untuk prakiraan stuktur sekunder protein. Dalam penelitian ini algoritma KNN memiliki performa yang lebih baik dalam memprediksi struktur sekunder protein dibandingkan dengan algoritm SVM.

 

Computational biology approaches have advanced exponentially in the prediction of the secondary structure of proteins of great importance to the pharmaceutical industry. The extraction of protein features in the laboratory has sufficient information for the prediction of the secondary structure of proteins used in bioinformatics studies. Predicting the secondary structure of proteins is a problem in the field of bioinformatics. There are several methods that have been applied with different levels of accuracy produced. This study aims to compare the Support Vector Machine prediction model with K-Nearest Neighbor in predicting the secondary structure of proteins. In this study, the Support Vector Machine and K-Nearest Neighbor models are presented in the RS126 dataset which consists of 126 protein data with an average protein sequence length of 185 sequences. RS126 data also consists of 32% alpha helix (H) , 21% beta (E), and 47% coil (C). Each prediction model in this study is given a sliding window width value of 15. The value of K = 5, K = 10, and K = 15 for the KNN prediction model and the value of C = 1, Gamma = 0.1 and Kernel Radial Basis Function for SVM prediction model. The use of Support Vector Machine and K-Nearest Neighbor models are used to obtain relevant and accurate results in secondary structure prediction. Some of the proposed principles have interesting and relevant biological clarifications. The obtained results confirm that the presence of certain amino acids in the protein sequence increases the stability for the predicted secondary structure of the protein. In this study, the KNN algorithm has a better performance in predicting the secondary structure of proteins than the SVM algorithm.


Keywords


Struktur Sekunder Protein, Support Vector Machine, K-Nearest Neighbor, RS126, Ekstraksi Fitur

References


Kundarwati, R. A., Dewi, A. P., & Wati, D. A. (2022). Hubungan Asupan Protein, Vitamin A., Zink, dan Fe dengan Kejadian Stunting Usia 1-3 Tahun. 11(1), 9–15.

J. Arian & Y. Hendy. (2008). Penerapan Infografis Tentang Makanan Dengan Kandungan Gizi Yang Baik Untuk Balita: Sketsa, Vol. 5 No. 2.

Haryanto, T., & Budiman, B. (2015). Penggunaan Fitur Kimia Fisik dan Posisi Atom untuk Prediksi Struktur Sekunder Protein. Jurnal Edukasi Dan Penelitian Informatika (JEPIN), 1(2). https://doi.org/10.26418/jp.v1i2.11919

Z. Jiyun, W. Hongpeng, Z. Zhishan, Xu Ruifeng dan L. Qin, F., CNNH_PSS: protein 8-class secondary structure prediction by convolutional neural network with highway,” BMC Bioinformatics., pp. 100–119, 2018, doi: https://doi.org/10.1186/s12859-018-2067-8

W. Antri, “APLIKASI SUPPORT VECTOR MACHINE (SVM) UNTUK PENCARIAN BINDING SITE PROTEIN-LIGAN”, Jurnal Imiah Matematika., vol. 8, no. 2, pp. 157–161, 2020.

P. Navin, Y. Singh, "Support vector machines for face recognition", "IRJET Volume: 02 Issue: 08. 1521, November 2015

Julianto, Y., Setiabudi, D. H., & Rostianingsih, S. (n.d.). Analisis Sentimen Ulasan Restoran Menggunakan Metode Support Vector Machine.

Fai, C. Y., Hassan, R., & Mohamad, M. S. (2012). Optimized Local Protein Structure with Support Vector. 333–342.

Huang, Y. F., & Chen, S. Y. (2013). Extracting physicochemical features to predict protein secondary structure. The Scientific World Journal, 2013(January 2013).https://doi.org/10.1155/2013/347106

Sutrimo, D. W. (2022). PREDIKSI PROSES PERSALINAN MENGGUNAKAN ALGORITMA KNN BERBOBOT PADA MONITORIN ELEKTRONIK PERSONAL HEALTH RECORD IBU HAMIL. Jurnal Manajemen Informatika & Sistem Informasi (MISI), 65-76.

Nasution, M. K., Saedudin, R. R., & Widartha, V. P. (2021). Perbandingan Akurasi Algoritma Naïve Bayes Dan Algoritma. E-Proceeding of Engineering, 8(5), 9765–9772.

Anna Octaviani, Pushpita Y. W. (2014). PENERAPAN METODE KLASIFIKASI SUPPORT VECTOR MACHINE (SVM) PADA DATA AKREDITASI SEKOLAH DASAR (SD) DI KABUPATEN MAGELANG. JURNAL GAUSSIAN, 811-820.

Agustina, D., Putri, E., Fauzi, F., Alawiyah, S. N., & Wasono, R. (2020). PENERAPAN METODE SUPPORT VECTOR MACHINE (SVM) UNTUK KLASIFIKASI DATA EKSPRESI GEN MICROARRAY. EDUSAINTEK, 4.

Krisandi, N. H. B. (2013). ALGORITMA k-NEAREST NEIGHBOR DALAM KLASIFIKASI DATA HASIL PRODUKSI KELAPA SAWIT PADA PT.MINAMAS KECAMATAN PARINDU. Buletin Ilmiah Math. Stat. dan Terapannya (Bimaster), 33-38.

Whidhiasih, R, N. N. A. (2013). KLASIFIKASI BUAH BELIMBING BERDASARKAN CITRA RED-GREEN-BLUE MENGGUNAKAN KNN DAN LDA. Jurnal Penelitian Ilmu Komputer, System Embedded & Logic , 29-35.

Pakuan Putra, D., & Agus Wardijono, B. (2020). Analisis Akurasi Penerapan Algoritma Support Function pada Penentuan Kelayakan Kredit (Studi Vector Machine Menggunakan Kernel Radial Basis Kasus German Kredit Data). Jurnal Ilmiah KOMPUTASI, 19(2), 175–180.

Hyeran Byun and Seong Whan Lee, “A Survey on Pattern Recognition Application of Support Vector Machine”, International Journal of Pattern Recognition and Artificial Intelligence, Vol.17, 459-486. 2003

Felix, Faisal, S., Butarbutar, T. F. M., & Sirait, P. (2019). Implementasi CNN dan SVM untuk Identifikasi Penyakit Tomat via Daun. Issn 2622-8130, 20(2), 117–134.

Indrabulan, T., & Syarif, I. (2020). Algoritma Interest Point dalam segmentasi citra objek kendaraan. PROtek : Jurnal Ilmiah Teknik Elektro, 7(1), 11–15. https://doi.org/10.33387/protk.v7i1.1353

Dwi, I., Mardiasih, A. Y. U., & Haryanto, T. (2014). Prediksi Struktur Sekunder Protein dengan K-Nearest Neighbor Classifier dan Principal Component Analysis Protein Secondary Structure Prediction using K-Nearest Neighbor Classifier and Principal Component Analysis. 1–10.

Eka Patriya, E. (2020). Implementasi Support Vector Machine Pada Prediksi Harga Saham Gabungan (Ihsg). Jurnal Ilmiah Teknologi Dan Rekayasa, 25(1), 24–38. https://doi.org/10.35760/tr.2020.v25i1.2571

MINARNO, A. E., MANDIRI, M. H. C., & ALFARIZY, M. R. (2021). Klasifikasi COVID-19 menggunakan Filter Gabor dan CNN dengan Hyperparameter Tuning. ELKOMIKA: Jurnal Teknik Energi Elektrik, Teknik Telekomunikasi, & Teknik Elektronika, 9(3), 493. https://doi.org/10.26760/elkomika.v9i3.493

A, Abraham, W. Adi Surya Widya, & F. Akmal (2019). Analisis Perbandingan Penentuan Hiposentrum Menggunakan Metode Grid Search, Geiger, dan Random Search: Studi Kasus pada Letusan Gunung Sinabung 2017. DIFFRACTION: Journal for Physics and Applied Physics, 1(2). 22-28.




DOI: https://doi.org/10.31294/inf.v9i2.13100

Refbacks

  • There are currently no refbacks.


Copyright (c) 2022 Dewan Dinata Tarigan

Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

Index by:

 
Published by Department of Research and Public Service (LPPM) Universitas Bina Sarana Informatika with supported Relawan Jurnal Indonesia

Jl. Kramat Raya No.98, Kwitang, Kec. Senen, Kota Jakarta Pusat, DKI Jakarta 10450
Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License