Laporkan Masalah

DETEKSI ANOMALI UNTUK IDENTIFIKASI POSITIVE DEVIANCE PADA DATA TIDAK TERSTRUKTUR DALAM PROGRAM GERAKAN SEKOLAH MENYENANGKAN

WAHID SALMAN AF, Dr. Indriana Hidayah, ST., MT; Muhammad Nur Rizal, S.T., M. Eng., Ph.D

2022 | Tesis | MAGISTER TEKNOLOGI INFORMASI

Penelitian pada bidang positive deviance (PD) membutuhkan waktu dan biaya yang besar karena menggunakan data primer yang dikumpulkan secara khusus, namun kini ketersediaan data sekunder dalam bentuk data digital semakin mudah didapatkan. Sehingga beberapa peneliti PD menggunakan data digital sebagai sumber data. Meskipun begitu, penelitian tersebut menggunakan data digital terstruktur dan terstandarisasi, sedangkan banyak data digital tidak terstruktur dan terstandarisasi seperti data komunikasi pada media sosial. Penelitian ini bermaksud mengajukan metode identifikasi kandidat PD dengan menggunakan data tidak terstuktur yaitu data komunikasi chat whatsapp, penelitian ini menggunakan data chat whatsapp Gerakan Sekolah Menyenangkan (GSM) karena GSM telah melakukan identifikasi PD yang sesuai nilai – nilai praktek pembelajaran di GSM. Sehingga hasil dari GSM dapat dijadikan acuan pengukuran performa metode yang diajukan. Data chat whatsapp tidak memiliki fitur yang relevan dengan PD yaitu indikator perilaku positif dan interaksi sosial, sehingga dilakukan feature engineering dengan social network analysis (SNA), klasifikasi teks berbasis Bidirectional Encorder Representation from Transformers (BERT) dan agregasi data. Setelah fitur didapatkan maka identifikasi kandidat PD dapat dilakukan dengan mendeteksi sampel dengan fitur yang menyimpang. Penelitian ini melakukan identifikasi PD dengan menguji 3 (tiga) algoritme deteksi anomali yaitu Isolation Forest (IForest), Local Outlier Factor (LOF), dan K-Nearest Neighbor (KNN) proses validasi menggunakan metode stratified 3-fold cross-validation dengan hasil IForest dapat unggul pada metric precission, recall, dan F1-score. Iforest juga menemukan kandidat PD sesuai GSM sejumlah 5,79% dari populasi, persentase tersebut berada pada rentang potential adopter pada teori Difusi Inovasi dan PD.

Research in the field of positive deviance (PD) requires a large amount of time and funding because it uses specifically collected primary data, but now the availability of secondary data in the form of digital data is easier to obtain. So that some PD researchers use digital data as its data source. However, this research uses structured and standardized digital data, while a lot of digital data is unstructured and standardized, such as communication data on social media. This study intends to propose a method of identifying PD candidates using unstructured data, this study used dataset from the Gerakan Sekolah Menyenangkan’s (GSM) Whatsapp chat group because GSM has been identified PD according to the values of learning practices in GSM. So that the results from GSM can be used as reference for measuring the performance of the proposed method. Whatsapp chat data doesn’t contains features relevant to PD which are positive behaviors and social interactions, so feature engineering is carried out by social network analysis (SNA), text classification based on Bidirectional Encoder Representation from Transformers (BERT) and data aggregation. After the relevan features are obtained, identifying PD candidates can be carried out by detecting sample with deviated feature, this study tested 3 (three) algorithms, namely Isolation Forest (IForest), Local Outlier Factor (LOF), and K-Nearest Neighbor (KNN) to identify PD, validation process using the stratified 3-fold cross-validation method with the results of this study is that IForest outperform other algorithm in metric precision, recall, and F1-score. IForest also can identify PD candidates according to GSM by 5,79% from population, this percentage is within the range of potential adopter of the diffusions of innovations and PD theory.

Kata Kunci : positive deviance, deteksi anomali, social network analysis, klasifikasi teks, isolation forest