Laporkan Masalah

Metode Partial Least Squares Discriminant Analysis untuk Klasifikasi pada Data Berdimensi Tinggi

Esti Restu Yuliani, Dr. Abdurakhman, S.Si., M.Si.

2023 | Tesis | S2 Matematika

Klasifikasi merupakan salah satu teknik pengolahan data dalam machine learning yang bertujuan untuk melakukan prediksi dari kelas suatu objek di mana tidak diketahui label dari kelas tersebut. Salah satu masalah dalam klasifikasi adalah data berdimensi tinggi yang dapat mengakibatkan model yang terbentuk menjadi overfitting. Data berdimensi tinggi adalah kondisi di mana jumlah variabel prediktor lebih banyak dibanding jumlah pengamatan. Dalam penelitian ini, data berdimensi tinggi diselesaikan dengan menggunakan metode partial least squares discriminant analysis dengan cara mereduksi dimensi menjadi A komponen utama, sehingga jumlah fitur yang digunakan adalah jumlah komponen utama. Metode partial least squares discriminant analysis adalah salah satu metode untuk klasifikasi dan diskriminasi yang bekerja dengan algoritma yang sama dengan regresi Partial Least Squares dengan variabel respon bersifat kategorik. Komponen yang digunakan dalam model sebanyak 9 komponen utama. Klasifikasi metode partial least squares discriminant analysis menghasilkan akurasi sebesar 99,21%, sensitifitas 97,62%, spesifisitas 100%, presisi 100%, dan AUC 99,8%. Partial least squares discriminant analysis pada data berdimensi tinggi menghasilkan model klasifikasi yang sangat bagus dibandingkan dengan metode Naive Bayes yang menghasilkan model klasifikasi yang cukup bagus dan klasifikasi bagus untuk metode K-Nearest Neigbor.

Classification is one of the data processing techniques in machine learning that aims to predict the class of an object where the label of the class is unknown. One of the problems in classification is high-dimensional data that can cause the model formed to be overfitting. High-dimensional data is a condition where the number of predictor variables is greater than the number of observations. In this study, high-dimensional data is solved using the partial least squares discriminant analysis method by reducing the dimensions to A principal component, so that the number of features used is the number of principal components. Partial least squares discriminant analysis is one of the classification methods used in high-dimensional data. The components used in the model are 9 principal components. Classification with the partial least squares discriminant analysis method resulted in an accuracy of 99.21%, sensitivity of 97.62%, specificity of 100%, precision of 100%, and AUC of 99.8%. Partial least squares discriminant analysis on high-dimensional data produces a very good classification model compared to the Naive Bayes method which produces a fairly good classification model and good classification for the K-Nearest Neigbor method.

Kata Kunci : Klasifikasi, Partial Least Squares Discriminant Analysis, Data Berdimensi Tinggi

  1. S2-2023-475592-abstract.pdf  
  2. S2-2023-475592-bibliography.pdf  
  3. S2-2023-475592-tableofcontent.pdf  
  4. S2-2023-475592-title.pdf