Reliabilitas (statistik)

Dipublikasikan oleh Siti Nur Rahmawati

22 Agustus 2022, 11.15

www.share28s.com

Dalam statistik dan psikometri, reliabilitas adalah konsistensi keseluruhan dari suatu ukuran. Suatu ukuran dikatakan memiliki reliabilitas yang tinggi jika menghasilkan hasil yang serupa dalam kondisi yang konsisten:

"Ini adalah karakteristik dari serangkaian skor tes yang berhubungan dengan jumlah kesalahan acak dari proses pengukuran yang mungkin tertanam dalam skor. Skor yang sangat andal adalah tepat, dapat direproduksi, dan konsisten dari satu kesempatan pengujian ke yang lain. Artinya, jika proses pengujian diulangi dengan sekelompok pengambil tes, pada dasarnya akan diperoleh hasil yang sama.Berbagai macam koefisien reliabilitas, dengan nilai berkisar antara 0,00 (banyak kesalahan) dan 1,00 (tidak ada kesalahan), biasanya digunakan untuk menunjukkan jumlah kesalahan dalam skor."

Misalnya, pengukuran tinggi dan berat badan seseorang seringkali sangat dapat diandalkan.

Jenis

Ada beberapa kelas umum perkiraan Reliabilitas :

  • Reliabilitas  antar penilai menilai tingkat kesepakatan antara dua atau lebih penilai dalam penilaian mereka. Misalnya, seseorang sakit perut dan semua dokter memberikan diagnosis yang sama.
  • Reliabilitas tes-tes ulang menilai sejauh mana skor tes konsisten dari satu administrasi tes ke yang berikutnya. Pengukuran dikumpulkan dari penilai tunggal yang menggunakan metode atau instrumen yang sama dan kondisi pengujian yang sama. Ini termasuk Reliabilitas  intra-penilai.
  • Reliabilitas antar metode menilai sejauh mana skor tes konsisten ketika ada variasi dalam metode atau instrumen yang digunakan. Hal ini memungkinkan Reliabilitas  antar-penilai dikesampingkan. Ketika berhadapan dengan bentuk, itu dapat disebut Reliabilitas  bentuk paralel.
  • Reliabilitas  konsistensi internal, menilai konsistensi hasil di seluruh item dalam tes.

Perbedaan dari validitas

Reliabilitas  tidak berarti validitas. Artinya, ukuran reliabel yang mengukur sesuatu secara konsisten belum tentu mengukur apa yang ingin diukur. Misalnya, meskipun ada banyak tes yang dapat diandalkan untuk kemampuan spesifik, tidak semuanya valid untuk memprediksi, katakanlah, kinerja pekerjaan.

Sementara reliabilitas tidak menyiratkan validitas, reliabilitas membatasi validitas keseluruhan tes. Sebuah tes yang tidak reliabel sempurna tidak dapat dikatakan valid secara sempurna, baik sebagai alat untuk mengukur atribut seseorang atau sebagai alat untuk memprediksi skor pada suatu kriteria. Sementara tes yang reliabel dapat memberikan informasi valid yang berguna, tes yang tidak reliabel tidak mungkin valid.

Misalnya, jika satu set timbangan secara konsisten mengukur berat suatu benda sebanyak 500 gram di atas berat sebenarnya, maka timbangan tersebut akan sangat andal, tetapi tidak akan valid (karena berat yang dikembalikan bukan berat sebenarnya). Agar timbangan valid, timbangan harus mengembalikan berat sebenarnya dari suatu objek. Contoh ini menunjukkan bahwa ukuran yang sangat andal belum tentu valid, tetapi ukuran yang valid harus andal.

Model umum

Dalam praktiknya, ukuran pengujian tidak pernah benar-benar konsisten. Teori reliabilitas tes telah dikembangkan untuk memperkirakan efek inkonsistensi pada akurasi pengukuran. Titik awal dasar untuk hampir semua teori reliabilitas tes adalah gagasan bahwa skor tes mencerminkan pengaruh dua macam faktor:

1. Faktor-faktor yang berkontribusi pada konsistensi: karakteristik stabil dari individu atau atribut yang ingin diukur.

2. Faktor-faktor yang berkontribusi terhadap inkonsistensi: ciri-ciri individu atau situasi yang dapat mempengaruhi nilai tes tetapi tidak ada hubungannya dengan atribut yang diukur.

Faktor-faktor tersebut antara lain:

  • Karakteristik sementara tetapi umum dari individu: kesehatan, kelelahan, motivasi, ketegangan emosional
  • Karakteristik individu sementara dan spesifik: pemahaman tentang tugas tes tertentu, trik atau teknik khusus dalam menangani materi tes tertentu, fluktuasi memori, perhatian atau akurasi
  • Aspek situasi pengujian: bebas dari gangguan, kejelasan instruksi, interaksi kepribadian, dll.
  • Faktor peluang: keberuntungan dalam pemilihan jawaban dengan menebak-nebak, gangguan sesaat

Tujuan dari memperkirakan reliabilitas adalah untuk menentukan seberapa besar variabilitas dalam nilai tes yang disebabkan oleh kesalahan dalam pengukuran dan berapa banyak yang disebabkan oleh variabilitas dalam skor yang sebenarnya.

Skor sebenarnya adalah fitur yang dapat direplikasi dari konsep yang diukur. Ini adalah bagian dari skor yang diamati yang akan berulang di berbagai kesempatan pengukuran tanpa adanya kesalahan.

Kesalahan pengukuran terdiri dari kesalahan acak dan kesalahan sistematis. Ini mewakili perbedaan antara skor yang diperoleh pada tes dan skor sebenarnya yang sesuai.

Rincian konseptual ini biasanya diwakili oleh persamaan sederhana:

Skor tes yang diamati = skor sebenarnya + kesalahan pengukuran

Teori tes klasik

Tujuan dari teori reliabilitas adalah untuk memperkirakan kesalahan dalam pengukuran dan menyarankan cara untuk meningkatkan pengujian sehingga kesalahan diminimalkan.

Asumsi utama dari teori reliabilitas adalah bahwa kesalahan pengukuran pada dasarnya acak. Ini tidak berarti bahwa kesalahan muncul dari proses acak. Untuk setiap individu, kesalahan dalam pengukuran bukanlah peristiwa yang sepenuhnya acak. Namun, di sejumlah besar individu, penyebab kesalahan pengukuran diasumsikan sangat bervariasi sehingga kesalahan pengukuran bertindak sebagai variabel acak.

Jika kesalahan memiliki karakteristik penting dari variabel acak, maka masuk akal untuk mengasumsikan bahwa kesalahan memiliki kemungkinan yang sama untuk menjadi positif atau negatif, dan bahwa kesalahan tersebut tidak berkorelasi dengan skor sebenarnya atau dengan kesalahan pada tes lain.

Diasumsikan bahwa:

1. Rata-rata kesalahan pengukuran = 0

2. Skor benar dan kesalahan tidak berkorelasi

3. Kesalahan pada ukuran yang berbeda tidak berkorelasi

Teori reliabilitas menunjukkan bahwa varians skor yang diperoleh hanyalah jumlah varians dari skor sebenarnya ditambah varians dari kesalahan pengukuran.

\sigma _{X}^{2}=\sigma _{T}^{2}+\sigma _{E}^{2}

Persamaan ini menunjukkan bahwa nilai tes bervariasi sebagai akibat dari dua faktor:

1. Variabilitas dalam skor sebenarnya

2. Variabilitas karena kesalahan pengukuran.

Koefisien reliabilitas {\displaystyle \rho _{xx'}}\rho _{{xx'}} memberikan indeks pengaruh relatif dari skor benar dan skor kesalahan pada skor tes yang dicapai. Dalam bentuk umumnya, koefisien reliabilitas didefinisikan sebagai rasio varians skor benar terhadap varians total nilai tes. Atau, secara ekuivalen, satu dikurangi rasio variasi skor kesalahan dan variasi skor yang diamati:

\rho _{{xx'}}={\frac  {\sigma _{T}^{2}}{\sigma _{X}^{2}}}=1-{\frac  {\sigma _{E}^{2}}{\sigma _{X}^{2}}}

Sayangnya, tidak ada cara untuk secara langsung mengamati atau menghitung skor sebenarnya, sehingga berbagai metode digunakan untuk memperkirakan reliabilitas suatu tes.

Beberapa contoh metode untuk mengestimasi reliabilitas meliputi reliabilitas tes-tes ulang, reliabilitas konsistensi internal, dan reliabilitas pengujian paralel. Setiap metode datang pada masalah mencari tahu sumber kesalahan dalam tes agak berbeda.

Teori respon barang

Sudah diketahui oleh ahli teori tes klasik bahwa presisi pengukuran tidak seragam di seluruh skala pengukuran. Tes cenderung membedakan lebih baik untuk peserta tes dengan tingkat sifat sedang dan lebih buruk di antara peserta tes dengan skor tinggi dan rendah. Teori respons item memperluas konsep Reliabilitas  dari indeks tunggal ke fungsi yang disebut fungsi informasi. Fungsi informasi IRT adalah kebalikan dari kesalahan standar skor pengamatan bersyarat pada setiap skor tes yang diberikan.

Perkiraan

Tujuan dari pendugaan reliabilitas adalah untuk menentukan seberapa besar variabilitas dalam skor tes yang disebabkan oleh kesalahan dalam pengukuran dan seberapa besar disebabkan oleh variabilitas dalam skor yang sebenarnya.

Empat strategi praktis telah dikembangkan yang menyediakan metode yang dapat diterapkan untuk memperkirakan reliabilitas tes.

1. Metode reliabilitas tes-tes ulang: secara langsung menilai sejauh mana skor tes konsisten dari satu administrasi tes ke yang berikutnya.

Ini melibatkan:

  • Mengadministrasikan tes ke sekelompok individu
  • Mengadministrasikan ulang tes yang sama ke grup yang sama di lain waktu
  • Menghubungkan set skor pertama dengan yang kedua

Korelasi antara skor pada tes pertama dan skor pada tes ulang digunakan untuk memperkirakan reliabilitas tes menggunakan koefisien korelasi product-moment Pearson: lihat juga korelasi item-total.

2. Metode bentuk paralel:

Kunci dari metode ini adalah pengembangan bentuk tes alternatif yang setara dalam hal isi, proses respon dan karakteristik statistik. Misalnya, bentuk alternatif ada untuk beberapa tes kecerdasan umum, dan tes ini umumnya terlihat setara.

Dengan model tes paralel dimungkinkan untuk mengembangkan dua bentuk tes yang setara dalam arti bahwa skor sebenarnya seseorang pada formulir A akan identik dengan skor sebenarnya mereka pada formulir B. Jika kedua bentuk tes tersebut diberikan ke jumlah orang, perbedaan antara skor pada formulir A dan formulir B mungkin karena kesalahan dalam pengukuran saja.

Ini melibatkan:

  • Mengadministrasikan satu bentuk tes kepada sekelompok individu
  • Di beberapa waktu kemudian, memberikan bentuk alternatif dari tes yang sama kepada kelompok orang yang sama
  • Menghubungkan skor pada formulir A dengan skor pada formulir B

Korelasi antara skor pada dua bentuk alternatif digunakan untuk memperkirakan reliabilitas tes.

Metode ini memberikan solusi parsial untuk banyak masalah yang melekat dalam metode reliabilitas tes-tes ulang. Misalnya, karena kedua bentuk pengujian tersebut berbeda, efek sisa tidak terlalu menjadi masalah. Efek reaktivitas juga sebagian dikendalikan; meskipun mengambil tes pertama dapat mengubah tanggapan terhadap tes kedua. Namun, masuk akal untuk mengasumsikan bahwa efeknya tidak akan sekuat dengan bentuk pengujian alternatif seperti dengan dua administrasi pengujian yang sama.

Namun, teknik ini memiliki kelemahan:

  • Mungkin sangat sulit untuk membuat beberapa bentuk tes alternatif
  • Mungkin juga sulit jika bukan tidak mungkin untuk menjamin bahwa dua bentuk alternatif dari tes adalah ukuran paralel

3. Metode split-half:

Metode ini memperlakukan dua bagian ukuran sebagai bentuk alternatif. Ini memberikan solusi sederhana untuk masalah yang dihadapi metode bentuk paralel: kesulitan dalam mengembangkan bentuk alternatif.

Ini melibatkan:

  • Mengadministrasikan tes ke sekelompok individu
  • Membagi tes menjadi dua
  • Menghubungkan skor pada satu setengah dari tes dengan skor di bagian lain dari tes

Korelasi antara dua belahan ini digunakan dalam memperkirakan reliabilitas tes. Perkiraan Reliabilitas  separuh ini kemudian ditingkatkan ke panjang tes penuh menggunakan rumus prediksi Spearman-Brown.

Ada beberapa cara untuk membagi tes untuk memperkirakan reliabilitas. Misalnya, tes kosakata 40 item dapat dibagi menjadi dua subtes, yang pertama terdiri dari item 1 hingga 20 dan yang kedua terdiri dari item 21 hingga 40. Namun, tanggapan dari babak pertama mungkin berbeda secara sistematis dari tanggapan di babak kedua karena peningkatan kesulitan item dan kelelahan.

Dalam membagi tes, kedua bagian harus semirip mungkin, baik dari segi isinya maupun dalam hal kemungkinan keadaan responden. Metode yang paling sederhana adalah dengan mengadopsi pembagian ganjil-genap, di mana item bernomor ganjil membentuk satu setengah dari tes dan item bernomor genap membentuk yang lain. Susunan ini menjamin bahwa setiap setengah akan berisi jumlah item yang sama dari awal, tengah, dan akhir tes asli.

4. Konsistensi internal: menilai konsistensi hasil di seluruh item dalam suatu tes. Ukuran konsistensi internal yang paling umum adalah alpha Cronbach, yang biasanya ditafsirkan sebagai rata-rata dari semua kemungkinan koefisien split-half. Alpha Cronbach adalah generalisasi dari bentuk awal estimasi konsistensi internal, Rumus Kuder–Richardson 20. Meskipun yang paling umum digunakan, ada beberapa kesalahpahaman tentang alfa Cronbach.

Ukuran reliabilitas ini berbeda dalam sensitivitasnya terhadap sumber kesalahan yang berbeda dan karenanya tidak perlu sama. Juga, reliabilitas adalah properti dari skor ukuran daripada ukuran itu sendiri dan dengan demikian dikatakan bergantung pada sampel. Perkiraan Reliabilitas  dari satu sampel mungkin berbeda dari sampel kedua (di luar apa yang mungkin diharapkan karena variasi pengambilan sampel) jika sampel kedua diambil dari populasi yang berbeda karena variabilitas sebenarnya berbeda dalam populasi kedua ini. (Hal ini berlaku untuk semua jenis ukuran—alat pengukur mungkin mengukur rumah dengan baik namun memiliki Reliabilitas  yang buruk saat digunakan untuk mengukur panjang serangga.)

Reliabilitas  dapat ditingkatkan dengan kejelasan ekspresi (untuk penilaian tertulis), memperpanjang ukuran, dan cara informal lainnya. Namun, analisis psikometri formal, yang disebut analisis item, dianggap sebagai cara paling efektif untuk meningkatkan Reliabilitas . Analisis ini terdiri dari perhitungan kesulitan item dan indeks diskriminasi item, indeks terakhir melibatkan perhitungan korelasi antara item dan jumlah skor item dari seluruh tes. Jika item yang terlalu sulit, terlalu mudah, dan/atau memiliki diskriminasi mendekati nol atau negatif diganti dengan item yang lebih baik, Reliabilitas  pengukuran akan meningkat.

  • R(t)=1-F(t).
  • R(t)=\exp(-\lambda t). adalah tingkat kegagalan)

 

Sumber Artikel: en.wikipedia.org