Penentuan Kekerabatan Hewan Berdasarkan Struktur Protein IGF2 Menggunakan Metode K-Means dan N-Gram

Ruth Ema Febrita, Maghfirotul Amaniyah


Dalam ilmu Biologi, terdapat berbagai cara untuk menentukan kedekatan antar dua individu, antara lain dengan mengamati kesamaan morfologi fisik kemudian membuat dendogram dan pembuatan pohon filogeni untuk menelusur kekerabatan berdasarkan sejarah evolusi suatu makhluk hidup. Akan tetapi pendekatan ini sangat sulit untuk dilakukan apabila hewan yang akan ditentukan kekerabatannya tidak berada dalam kondisi yang hidup, sehingga sangat sulit untuk mengamati ciri-ciri fisik yang ada. Penelitian ini bertujuan untuk memberikan pendekatan yang berbeda dalam menentukan kekerabatan hewan dengan menggunakan struktur protein IGF2. Kekerabatan dilakukan dengan menggunakan metode clustering K-Means. Untuk memudahkan dalam melakukan pengelompokkan struktur protein yang memiliki panjang sekuens yang beragam, maka teknik n-gram digunakan untuk memecah string menjadi beberapa subsekuens dengan panjang yang sama. Pengelompokkan dengan metode K-Means telah dilakukan dan mendapatkan hasil terbaik pada jumlah cluster sebanyak tujuh cluster, dengan silhouette coeficient rata-rata sebesar 0.331, indeks puritysebesar 0.735, dan precisionsebesar 0.823 yang mengindikasikan proses clustering cukup efektif.

In Biology, there were various ways to determine the closeness between two individuals, such as by observing the similarity of physical morphologies then making a dendogram and also by making a phylogenetic tree to trace the kinship based on the evolutionary history. However, this approach is very difficult to do if the animal whose relatives are to be determined is not in a living condition, so it is very difficult to observe the existing physical characteristics. This study aims to provide a different approach in determining animal kinship using clustering algorithm to cluster the IGF2 protein structures. Kinship is determined using the K-Means clustering method. N-gram technique is used to break the sequence into several subsequences with the same length, because each sequence can have various length. Grouping with the K-Means method had been done and got the best results on the number of clusters as many as seven clusters, with an average silhouette coefficient of 0.331, a purityindex of 0.735, and a precisionof 0.823 which indicates the clustering process is quite effective. 


analisis kekerabatan, k-means, n-gram


Copyright (c) 2022 Ruth Ema Febrita, Maghfirotul Amaniyah

