Laporkan Masalah

Perbandingan berbagai metode untuk mendeteksi bias butir

KARTOWAGIRAN, Badrun, Promotor Prof. Sumadi Suryabrata, Ph.D

2005 | Disertasi | S3 Psikometri

Tujuan penelitian ini adalah untuk mengetahui : (1) butir-butir tes Ujian Akhir Nasional (UAN) Matematika SMP yang secara statistik signifikan mengandung bias (Differential Item Functioning /DIF) bila dideteksi dengan metode kurva karakteristik butir (Item Characteristic Curve = ICC); (2) butir-butir tes UAN Matematika SMP yang secara statistik signifikan mengandung DIF bila dideteksi dengan metode luasan menurut Raju; (3) butir-butir tes UAN Matematika SMP yang secara statistik signifikan mengandung DIF bila dideteksi dengan metode khikuadrat menurut Lord; (4) butir-butir tes UAN Matematika SMP yang secara statistik signifikan mengandung DIF bila dideteksi dengan metode tes rasio kebolehjadian (likelihood ratio test), dan (5) metode deteksi DIF yang paling sensitif untuk tes UAN Matematika SMP. Data yang digunakan dalam penelitian ini adalah respons siswa SMPN di Yogyakarta terhadap soal tes UAN mata pelajaran matematika tahun 2003. Sebelum dianalisis muatan DIF-nya, terlebih dahulu butir soal dipilih berdasarkan teori tes klasik dengan menggunakan program ITEMAN, dan dikalibrasi berdasarkan teori respons butir model 3 parameter dengan menggunakan program BILOG. Selanjutnya dilakukan pendeteksian DIF dengan metode kurva karakteristik dengan bantuan program BILOG, dengan metode luasan Raju dan Khi-kuadrat dari Lord dengan program IRT-DIF, dan metode tes rasio kebolehjadian dengan bantuan program MULTILOG. Butir-butir yang bias selanjutnya digambar peluang menjawab benar untuk kelompok pria dan wanita dengan program Maple untuk mengetahui apakah bias yang termuat dalam butir soal merupakan DIF yang seragam atau yang tidak seragam. Untuk mengetahui metode mana yang paling sensitif dalam mendeteksi DIF digunakan 2 cara, yakni dengan cara menghitung banyaknya butir yang memuat DIF dan dengan cara melihat validitas dan reliabilitas hasil pengukuran deteksi DIF dengan analisis faktor konfirmatori, yang dilakukan dengan bantuan program LISREL. Hasil penelitian ini menunjukkan bahwa : (1) ada 8 butir tes UAN Matematika SMP tahun 2003 yang secara statistik signifikan memuat DIF bila dideteksi dengan metode ICC, yakni butir nomor 2, 4, 8, 12, 22, 25, 27, dan 30; (2) ada 4 butir tes UAN mata pelajaran Matematika SMP yang secara statistik signifikan mengandung DIF bila dideteksi dengan metode luasan Raju, yakni butir nomor 4, 8, 12, dan 20; (3) ada 5 butir tes UAN Matematika SMP yang secara statistik signifikan mengandung DIF bila dideteksi dengan metode khi-kuadrat menurut Lord, yakni butir nomor 4, 8, 12, 25, dan 29; (4) ada 9 butir tes UAN Matematika SMP yang secara statistik signifikan memuat DIF bila dideteksi dengan metode tes rasio kebolehjadian, yakni butir nomor 2, 4, 8, 12, 22, 25, 27, 29, and 30; (5) dari 10 butir yang memuat DIF, 9 butir menguntungkan siswa pria dan 1 butir soal menguntungkan siswa wanita, (6) baik berdasarkan jumlah butir yang memuat DIF maupun berdasarkan hasil analisis faktor konfirmatori metode deteksi DIF yang paling sensitif untuk tes UAN Matematika SMP tahun 2003 adalah metode tes rasio kebolehjadian diikuti dengan kurve karakteristik butir, khi kuadrat Lord, dan luasan Raju, (7) butir-butir yang mengandung aspek spasial cenderung menguntungkan siswa pria, sedangkan butir-butir yang mengandung aspek verbal cenderung menguntungkan siswa wanita, (8) bias butir yang disebabkan perbedaan gender terjadi karena selama ini telah dibentuk, disosialisasikan, diperkuat, bahkan dikonstruksikan secara sosial atau kultural, melalui ajaran keagamaan dan negara sehingga apabila perbedaan gender di masyarakat sudah mengecil maka ada kemungkinan bias butir yang disebabkan perbedaan gender ini tidak ada lagi, dan (9) semakin kecil rentang harga p dari tiap butir yang memuat bias semakin banyak metode yang mampu mendeteksinya. Selanjutnya, disarankan agar : (1) para pembaca atau peneliti yang berminat dapat melakukan penelitian yang serupa tetapi wilayahnya berbeda untuk mengetahui keberadaan bias gender atau dengan metode deteksi DIF berbeda untuk mengetahui ketangguhan metode tes rasio kebolehjadian, (2) pendidik perlu mengurangi kegiatan dan atau perilaku yang dapat menumbuhkembangkan perbedaan gender antara siswa pria dan wanita, (3) dinas pendidikan tingkat propinsi atau kabupaten/kota yang menangani kurikulum dan pengujian sebaiknya memanfatkan hasil penelitian ini dalam memberikan materi pelatihan penyusunan soal tes dan analisisnya agar peserta pelatihan mampu membuat butir-butir soal yang tidak mengandung DIF dan menganalisis butir secara benar, (4) lembaga yang menangani ujian nasional, seperti Pusat Penilaian Pendidikan Balitbang Depdiknas, hendaknya memanfaatkan hasil penelitian ini sebagai masukan dalam menyusun bank soal agar tidak ada butir bias yang tersimpan, dan dapat menentukan metode deteksi DIF yang sensitif.

The objective of this research study is to conceive: (1) Items of Junior High School mathematics national exit examination which statistically significantly contain bias (Differential Item Functioning/DIF) if detected by the Item Characteristic Curva (ICC) method; (2) Items of Junior High School mathematics national exit examination which statistically significantly contain DIF if detected by Raju’s Area Measure; (3) Items of Junior High School mathematics national exit examination which statistically significantly contain DIF if detected by Lord’s Chisquare; (4) Items of Junior High School mathematics national exit examination which statistically significantly contain bias DIF if detected by the likelihood ratio test; and (5) the most sensitive DIF detection method for the Junior High School mathematics national exit examination. The data for the study consist of State Junior High School students’ responses to the mathematics national exit examination of the 2003 academic year. Before subjected to the DIF analyses, test items were sorted according to the classical theories using the ITEMAN program package and three-parametre item response model using BILOG program. Good test items were then subjected to the DIF analyses using the characteristic curve method using BILOG, Raju’s area measure and Lord’s Chi-square using IRT-DIF program, and the likelihood ratio test using the MULTILOG program. The bias items were then plotted for the probability of the female or male group to answer correctly using the Maple program to determine whether the bias in the items was uniform or non-uniform. Two methods to find out the most sensitive DIF model, that are: to count the number of items which contain DIF, and to check the validity and reliability of DIF detection measurement result with confirmatory factor analysis by using the LISREL program package. Results of the study show: (1) 8 test items were detected by the ICC method as statistically significantly contain DIF, namely items 2, 4, 8, 12, 22, 25, 27, and 30; (2) 4 items were detected as containing DIF by the Raju extended model, namely items 4, 8, 12, and 20; (3) Lord’s Chi-square detected 5 items with DIF namely items 4, 8, 12, 25, and 29; (4) The likelihood ratio test detected 9 items with DIF namely items 2, 4, 8, 12, 22, 25, 27, 29, and 30, (5) of the 10 items with DIF, 9 items favour male students and 1 item favour female students; and (6) In detecting DIF on the 2003 JHS NEE Mathematics test, there is a difference in sensitivity among the Likelihood Ratio Test, the ICC method, Lord’s Chi-square, and Raju’s Areas Measures. In the order of the most sensitive to the least, the rank occurs as follows: the Likelihood Ratio Test, the ICC method, Lord’s Chi-square, and Raju’s Areas Measures, (7) . Test items containing spatial aspects tend to give advantage to male students whole those containing verbal aspects tend to give advantage to female students, (8) . It can be pointed out that gender bias in the test items seems to be related to the fact that, thus far, gender differences have been formed, socialized, endorsed, and even socially and culturally structured in the mind of the students through educational media such as religious and civics education. It is possible that, should gender differences in society diminish, gender-bias items may no longer exist, and (9) The smaller the value of the p (estimation error in drawing conclusion) of each test item containing DIF as detected by various indexes, the larger the number of the methods that can make the detection. Accoringly, it is suggested that: (1) for interested readers and researchers: there is a need for doing similar studies in some other region or other DIF detection models to know if there is gender bias or to verify the strength of the Likelihood Ratio Test, (2) for educators, it is suggested that teachers minimize or, possibly, eliminate practices both in and outside the classroom that have the potential of creating gender differences among male and female students, (3) for the Provincial or Regional Office of Education that is in charge of curriculum and examination: there is a need for organizing trainings for teachers in writing and analyzing test items so that the writing of biased items and procedural errors of steps in detecting biased items can be avoided, and (4) for institutions in charge of national examinations, such as the Centre for Educational Evaluation: (a) may use the results of this study as considerations in their activities so that selection on biased items can be avoided and the most sensitive method for detecting biased items can be selected, (b) need special considerations be given on the gender selection of the test writers so that gender bias can be minimized, and (c) in the selection of the method for detecting biased items, consideration should given on the practical and economical factors.

Kata Kunci : Psikometri,Butir Tes,Deteksi Bias


    Tidak tersedia file untuk ditampilkan ke publik.