Jika pada teori tes klasik parameter yang digunakan untuk seleksi item ada tiga, yaitu tingkat kesulitan, daya diskriminasi, dan efektivitas distraktor, tulisan ini akan menjelaskan alternatif prosedur analisis dan seleksi item menggunakan teori modern yakni dengan pendekatan Rasch model. Perbedaan mendasar antara kedua teori ini terletak pada hasil analisisnya. Teori tes klasik bersifat sample dependent sementara teori tes modern bersifat sample free. Beberapa pertimbangan yang dijadikan dasar dalam analisis item menggunakan Rasch model adalah adanya beberapa kriteria, yakni tingkat kesesuaian butir (item fit), taraf kesukaran, daya diskriminasi Rasch, dan fungsi informasi butir.
Tingkat Kesesuaian Butir (Item Fit)
Butir soal yang cocok (fit) berarti soal tersebut berperilaku secara konsisten dengan apa yang diharapkan oleh model (Benyamin, 1998). Apabila ditemukan bahwa soal tidak fit, hal ini merupakan indikasi bahwa terjadi miskonsepsi pada siswa terhadap butir soal tersebut. Beberapa indeks fit disediakan dalam analisis Rasch adalah Person Infit ZSTD, Person Outfit ZSTD, Person Infit MNSQ, Person Outfit MNSQ, Item Infit ZSTD, Item Outfit ZSTD, Item Infit MNSQ, dan Item Outfit MNSQ (Boone, Staver, & Yale, 2014).
Nilai MNSQ selalu positif dan bergerak dari nol (0) hingga tak hingga (∞). Dalam hal ini nilai MNSQ digunakan untuk memantau kesesuaian data dengan model. Nilai mean square yang diharapkan adalah 1 (satu). Nilai mean-square pada infit atau outfit yang lebih besar daripada satu, katakanlah 1,3 mengindikasikan bahwa data yang diobservasi memiliki 30% variasi lebih banyak daripada yang diprediksi oleh Rasch. Nilai infit atau outfit kurang dari 1, katakanlah 0,78 (1-0,22=0,78) mengindikasikan bahwa data yang diobservasi memiliki 22% variasi lebih sedikit daripada yang diprediksi oleh Rasch model (Bond & Fox, 2015).
Sedangkan Nilai z yang diharapkan adalah mendekati 0 (nol). Ketika data yang diobservasi sesuai dengan model, nilai z memiliki rerata mendekati 0 dan standar deviasinya 1. Nilai ZSTD yang terlalu besar (z > +2) atau terlalu rendah (z < -2) menunjukkan bahwa butir tidak kompatibel dengan model yang diharapkan. Nilai z terstandar (ZSTD) pada infit dan outfit dapat berupa positif atau negatif. Nilai ZSTD negatif menunjukkan sedikitnya variasi dibandingkan pada model. Respons jawaban mendekati model Guttman-style response string yaitu semua subjek dengan kemampuan tinggi mampu menjawab dengan benar dan semua subjek dengan kemampuan rendah menjawab salah pada butir tersebut. Sementara nilai positif menunjukkan bahwa variasi jawaban lebih banyak dibandingkan pada model. Respons jawaban tidak teratur dan tidak dapat diprediksi (Bond & Fox, 2015).
Menurut Boone, et al. (2014), kriteria yang digunakan kriteria yang digunakan untuk memeriksa butir soal yang sesuai adalah
1. Nilai Outfit Mean Square (MNSQ) yang diterima : 0,5 < MNSQ < 1,5
2. Nilai outfit Z-standard (ZSTD) yang diterima: -2,0 < ZSTD < +2,0
Jika butir soal pada kedua kriteria tersebut tidak terpenuhi, itu artinya butir soal tersebut tidak bagus dan perlu direvisi atau diganti. Berbeda dengan tingkat kesulitan item yang sifatnya konsisten, tingkat kesesuaian item ini sangat dipengaruhi oleh besarnya ukuran sampel. Kesalahan kunci jawaban, banyaknya individu yang asal-asalan dalam mengerjakan soal, dan soal yang memiliki daya beda rendah dapat menurunkan nilai keseuaian item. Yang perlu dicermati lainnya adalah, nilai ZSTD ini sangat sensitif terhadap jumlah sampel. Apabila sampel yang digunakan jumlahnya besar (>500), ada kecenderungan untuk nilai ZSTD ini memiliki nilai di atas 3. Oleh karena itu, beberapa ahli merekomendasikan untuk tidak menggunakan kriteria ZSTD ini jika sampel yang digunakan cukup besar (Suminto & Widhiarso, 2015).
Daya Diskriminasi Rasch (Point Measure Correlation)
Daya Diskriminasi Rasch atau nilai korelasi skor butir dan skor Rasch (Pt Measure Corr) pada prinsipnya sama dengan daya diskriminasi item yang diukur dengan pendekatan teori tes klasik. Hanya saja jika pada teori tes klasik komputasinya menggunakan skor mentah, pada Pt Measure Corr yang digunakan adalah skor measure. Nilai Pt Measure Corr 1,0 mengindikasikan bahwa semua peserta tes dengan abilitas rendah menjawab butir dengan salah dan semua peserta tes dengan abilitas tinggi menjawab butir dengan benar. Sementara nilai Pt Measure Corr negatif mengindikasikan butir soal yang menyesatkan karena peserta tes dengan kemampuan rendah mampu menjawab butir dengan benar dan peserta tes dengan kemampuan tinggi justru menjawab salah. Soal-soal dengan nilai korelasi negatif harus diperiksa untuk melihat apakah kunci jawaban salah, perlu direvisi, atau dihapus dari tes (Smiley, 2015).
Seperti pada teori tes klasik, nilai korelasi skor butir dan skor Rasch yang ideal adalah yang positif serta tidak mendekati nol. Beberapa ahli mempunyai pendapat tentang berapa nilai Pt Measure Corr yang disyaratkan. Alagumalai, Curtis, & Hungi (2005) mengklasifikasikan nilai tersebut menjadi sangat bagus (>0,40), bagus (0,30–0,39), cukup (0,20-0,29), tidak mampu mendiskriminasi (0,00-0,19), dan membutuhkan pemeriksaan terhadap butir (<0 span="">0>
Tingkat Kesulitan Butir (Item Measure)
Tingkat kesulitan butir pada model Rasch pada dasarnya sama dengan taraf kesukaran teori tes klasik, yaitu perbandingan antara jumlah jawaban benar dengan jumlah soal yang diujikan (odd-ratio). Hanya saja yang membedakan adalah, nilai peluang itu kemudian diskalakan dengan memasukkan fungsi logaritma. Hasil estimasi logit dari odd-ratio inilah yang disebut logit atau W-score atau nilai measure. Jika pada teori tes klasik nilai indeks kesukaran yang tinggi berarti soal tersebut mudah, pada Rasch model nilai logit yang tinggi menunjukkan item tersebut sulit. Sama seperti dalam teori tes klasik, tidak ada patokan berapa tingkat kesulitan yang diterima dalam tes. Hal ini bergantung dari tujuan tes itu sendiri. Manfaat praktis terkait tingkat kesulitan item akan dijelaskan pada bagian fungsi informasi item.
Fungsi Informasi Butir
Setiap pengukuran menghasilkan informasi mengenai hasil pengukuran. Informasi pengukuran yang diinginkan bukan berdasar pada individu yang diukur, melainkan informasi pada fokus pengukuran. Informasi pengukuran ini berdasar pada hubungan antara tes dengan individu (Sumintono & Widhiarso, 2015). Contoh kasus yang bisa menggambarkan fungsi informasi item ini adalah ketika kita menyajikan soal matematika tentang kalkulus kepada siswa SD, tentu kita tidak akan mendapatkan informasi apa-apa, hampir semua siswa akan menjawab dengan salah. Namun jika soal itu diberikan kepada siswa SMA, kita akan mendapatkan informasi yang banyak. Ada beberapa siswa menjawab benar dan ada beberapa yang menjawab salah. Semakin banyak variasi yang terjadi semakin banyak informasi yang akan didapatkan.
Sumintono dan Widhiarso (2015) menjelaskan beberapa manfaat dari fungsi informasi tes adalah sebagai berikut:
Fungsi informasi akan menunjukkan untuk apa pengukuran dilakukan. Sebagai contoh, untuk tes screening, tes remidi, dan tes untuk Anak Berkebutuhan Khusus memusatkan tes dengan fungsi informasi seperti grafik warna merah. Sebaliknya jika tes dilakukan untuk seleksi yang ketat, fungsi informasi tes yang dibutuhkan adalah tes dengan fungsi informasi seperti pada grafik warna hitam.
Fungsi informasi menunjukkan reliabilitas pengukuran yang dilakukan. Model Rasch menekankan pada koefisien separasi (item separation). Semakin tinggi puncak informasi yang dapat dicapai, semakin tinggi nilai reliabilitas pengukuran yang dilakukan.
Bias Butir
Bias butir sebenarnya bukanlah karakteristik yang dijadikan pertimbangan utama dalam seleksi item. Meskipun demikian informasi mengenai adanya item yang bias sangat berpengaruh terhadap akurasi pengukuran. Suati butir disebut bias jika didapati bahwa individu dengan karakteristik tertentu lebih diuntungkan dalam menjawab soal dibanding individu dengan karakteristik lain. misalnya, suatu soal bisa lebih mudah dijawab oleh orang yang tinggal di kota daripada orang yang tinggal di desa. Dalam model Rasch, bias butir dapat dideteksi dengan DIF (differential item functioning). Item-item yang terdidentifikasi DIF.<0 atau="" dan="" diganti.="" dirasa="" direview="" direvisi="" disarankan="" jika="" perlu="" span="" ulang="" untuk="">0>
Demikian sobat, ulasan ramu-ramu dari berbagai sumber. Semata-mata untuk media belajar saya, sekaligus menyimpan referensi agar tidak tercecer.
Adapun perangkat lunak/ software yang dapat digunakan bisa dilihat DI SINI
Download berbagai Jurnal dan e-book dapat di lihat DI SINI
Demikian sobat, ulasan ramu-ramu dari berbagai sumber. Semata-mata untuk media belajar saya, sekaligus menyimpan referensi agar tidak tercecer.
Adapun perangkat lunak/ software yang dapat digunakan bisa dilihat DI SINI
Download berbagai Jurnal dan e-book dapat di lihat DI SINI
Referensi
Alagumalai, S., Curtis, D. D., & Hungi, N. (2005). Applied Rasch Measurement: A Book of Exemplars. Dordrecht: Springer
Benyamin, J. C. (1998). Analisis Kualitas Soal Ebtanas PPKn SMU Tahun Pelajaran 1996/1997 dengan Pendekatan Model Rasch di provinsi Nusa Tenggara Timur. Yogyakarta: Universitas Gadjah Mada.
Bond, T. G., & Fox, M. C. (2015). Applying the Rasch Model Fundamental Measurement in the Human Sciences Third Edition. New York: Routledge.
Boone, W. J., Staver, R. J., & Yale, S. M. (2014). Rasch Analysis in the Human Sciences. London: Springer.
Smiley, J. (2015, April). Classical test theory or Rasch: A personal account from a novice user. SHIKEN, hal. 16-31.
Sumintono, B., & Widhiarso, W. (2015). Aplikasi Pemodelan Rasch pada Assessment Pendidikan. Cimahi: Trim Komunikata.
test
BalasHapus