Validitas Rapid Test Covid 19 : Accuracy vs F1-Score, Pilih yang Mana?

Ilustrasi : bloomberg.com
Pada masa pandemi Covid 19 ini, berbagai jenis (merek) alat Rapid Diagnostic Test (RDT) Antibodi Covid 19, atau lebih dikenal dengan istilah Rapid Test, telah diimpor dalam skala besar demi percepatan penanganan Covid 19 di tanah air.

Kini, alat Rapid Test ini telah bebas diperjualbelikan secara online.

Terkait hal ini, Gugus Tugas Percepatan Penanganan Covid-19 telah mengeluarkan daftar rekomendasi RDT Antibodi Covid-19 yang terdiri atas 20 merek (Soal Alat Rapid Test Vivadiag, BNPB: Ini Berita Bikin Heboh aja).

Namun demikian, beredar berita bahwa alat Rapid Test merek tertentu diduga tidak akurat (Beda Hasil Test Bikin Heboh, Dinkes Tarik Rapid Test Merk Viva Diag).

Bahaya Rapid Test yang Tak Akurat : False Positive & False Negative

Alat Rapid Test Covid 19 tidak dapat menentukan secara pasti apakah seseorang telah positif terjangkit Covid 19 atau tidak.

Banyak yang terdiagnosa positif, tapi nyatanya negatif (FALSE POSITIVE).
Ada juga yang terdiagnosa negatif, tapi nyatanya positif (FALSE NEGATIVE).

Baik FALSE POSITIVE maupun FALSE NEGATIVE dua-duanya berbahaya.
Orang yang terdiagnosa FALSE POSITIVE, ada kemungkinan akan benar jadi positif akibat dia dikumpulkan/dikarantina bersama orang-orang yang positif.
Sedangkan, orang yang terdiagnosa FALSE NEGATIVE akan terus menyebarkan virus di masyarakat karena dia positif terjangkit virus tapi tidak dikarantina.

Harapan Ideal Rapid Test : True Positive & True Negatif

Hasil ideal yang diharapkan dari Rapid Test adalah:
Orang yang benar positif terjangkit Covid 19 seharusnya terdiagnosa positif (TRUE POSITIVE).
Begitu juga, orang yang negatif/tidak terjangkit Covid 19 seharusnya terdiagnosa negatif (TRUE NEGATIVE).

Menghitung Validitas Hasil Diagnosa/Prediksi

Validitas suatu alat/model diagnosa atau prediksi atau klasifikasi dapat diukur dengan sejumlah performance metrics, seperti : Precision, Recall, Accuracy, dan F1-score.

Misal, telah dilaksanakan Rapid Test terhadap 100 orang ODP yang kemudian dilanjutkan dengan Polymerase Chain Reaction (PCR) Test untuk mendapatkan hasil yang lebih valid dan reliable.
Kita asumsikan hasil Rapid Test-nya adalah sebagai berikut:
  1. TRUE POSITIVE (diagnosa positif, kenyataan positif) = 15 orang
  2. FALSE POSITIVE (diagnosa positif, kenyataan negatif) = 5 orang
  3. TRUE NEGATIVE (diagnosa negatif, kenyataan negatif) = 70 orang
  4. FALSE NEGATIVE (diagnosa negatif, kenyataan positif) = 10 orang
Dalam hal ini, 'diagnosa' adalah hasil Rapid Test, sedangkan 'kenyataan' adalah hasil PCR Test.

Berikut adalah Confusion Matrix hasil diagnosa tersebut:


Hasil Diagnosa Rapid Test
Kenyataan

Positif
Negatif
Positif
True Positive (TP) = 15
False Negative (FN) = 10
Negatif
False Positive (FP) = 5
True Negative (TN) = 70

Selanjutnya, mari kita hitung performance metrics-nya:

#1. Precision

Menunjukkan perbandingan antara jumlah yang benar positif (TP) dengan jumlah seluruh diagnosa/prediksi positif (TP dan FP).

Precision = True Positive / (True Positive + False Positive )
                = 15 / (15 + 5) = 0,75

Berdasarkan rumus diatas, diagnosa/prediksi menjadi 100 % presisi ketika tidak ada False Positive (dengan kata lain, semua yang didiagnosa/prediksi positif adalah benar positif).

Indikator Precision memperhitungkan pengaruh False Positive, namun tidak memperhitungkan nilai False Negative.
Oleh karenanya, Precision bisa diprioritaskan ketika resiko diagnosa/prediksi False Positive sangatlah berbahaya, sedangkan resiko False Negative dianggap tidak begitu berbahaya.

#2. Recall

Menunjukkan perbandingan antara jumlah yang benar positif (TP) dengan jumlah yang pada kenyataannya positif.

Indikator Recall khususnya menjadi sangat penting ketika resiko diagnosa/prediksi False Negative (FN) sangatlah berbahaya.

Recall = True Positive / (True Positive + False Negative)
           = 15 / (15 + 10) = 0,60
Jadi, makin banyak jumlah False Negative, nilai Recall menjadi makin kecil.

#3. Accuracy

Menunjukkan perbandingan antara jumlah seluruh diagnosa/prediksi yang benar (TP + TN) dengan jumlah seluruh hasil diagnosa/prediksi (TP+TN+FP+FN).
Indikator Accuracy adalah salah satu metrics yang paling mudah dimengerti, jelas, dan intuitive.

Accuracy = (TP + TN) / (TP + FP + TN + FN)
                = 85 / 100 = 0,85

Indikator Accuracy umum digunakan ketika klasifikasi/golongan Positif dan Negatif sama pentingnya.
Sebagai contoh adalah klasifikasi golongan darah antara 'O' Rh Positif dan 'O' Rh Negatif.

Tetapi, pada kasus Rapid Test Covid 19, nilai Accuracy alat Rapid Test tidak dapat dijadikan acuan utama.

Pada contoh Rapid Test terhadap 100 orang di artikel ini, Accuracy-nya adalah 0,85 atau 85 % (ini adalah angka akurasi yang lumayan tinggi).
Namun demikian, terdapat 10 orang yang pada kenyataannya positif tetapi terdiagnosa negatif (False Negative = 10).
Akibatnya, 10 orang ini akan terus menularkan virus di masyarakat tanpa terdeteksi.

#4. F1-score

Adalah nilai Harmonic Mean (Rata-rata Harmonik) dari Precision dan Recall.

F1-score = 2 x ((Precision x Recall) / (Precision + Recall))
               = 2 x ((0,75 x 0,60) / (0,75 + 0,60))
               = 0,67

Dibanding tiga metrics lainnya, metric F1-score jelas lebih sulit dipahami dan tidak se-intuitive Accuracy.

Sederhananya, oleh karena F1-score mempehitungkan nilai Precision dan Recall, ini berarti bahwa F1-score memperhitungkan pentingnya nilai False Positive dan False Negative.
Dengan kata lain, indikator F1-score menekankan bahaya/resiko dari False Positive dan False Negative.

Pada kasus Rapid Test Covid 19, baik False Positive maupun False Negative kedua-duanya mengandung bahaya/resiko TINGGI.
Oleh karenanya, jika hendak melakukan Rapid Test, pilihlah alat Rapid Test dengan nilai F1-score yang tinggi, jangan tergiur dengan Accuracy.

Perbedaan antara F1-score dan Accuracy

Baiklah, mari kita rangkum perbedaan antara F1-score dan Accuracy:
  1. F1-score digunakan ketika False Positive dan False Negative memiliki dampak yang sangat berbahaya, sedangkan Accuracy digunakan ketika yang diutamakan adalah True Positive dan True Negative.
  2. Accuracy bagus digunakan jika distribusi klasifikasi positif dan negatif seimbang (jumlah nyata antara positif dan negatif berimbang), sedangkan F1-score lebih baik digunakan ketika distribusi klasifikasi positif dan negatif tidak seimbang seperti pada contoh Rapid Test diatas (positif = 25, negatif = 75).
  3. Pada kasus-kasus di dunia nyata, distribusi klasifikasi yang tidak seimbang lebih realistis daripada yang seimbang (sebagai contoh nyata, jumlah orang yang positif Covid 19 di negara kita sangat jauh berbeda dengan jumlah orang yang negatif), sehingga metric F1-score lebih cocok daripada Accuracy.

Comments

Popular posts from this blog

Apa itu Big Data : Menyimak Kembali Definisi Big Data, Jenis Teknologi Big Data, dan Manfaat Pemberdayaan Big Data

Pentingnya Web Crawling sebagai Cara Pengumpulan Data di Era Big Data

Apache Spark: Perangkat Lunak Analisis Terpadu untuk Big Data

Memahami Definisi Big Data

Bagaimana Cara Membaca Google Play eBook Secara Offline?

MapReduce: Besar dan Powerful, tapi Tidak Ribet

Cara Sederhana Install Hadoop 2 mode Standalone pada Windows 7 dan Windows 10

HDFS: Berawal dari Google untuk Big Data

Big Data dan Rahasia Kejayaan Google

Tutorial Swift: Membuat Aplikasi iPhone Sederhana dengan UITableView (bagian 1)