Studi: 50 Persen Jawaban Chatbot AI untuk Kesehatan Bermasalah
Suara Kalbar – Penggunaan chatbot artificial intelligence (AI), seperti ChatGPT dan Grok dalam mencari informasi kesehatan kini menjadi perhatian serius para ahli.
Teknologi ini semakin populer, tetapi sejumlah penelitian terbaru menunjukkan hasil yang mengkhawatirkan terkait akurasi informasi medis yang diberikan.
Temuan ini memperkuat kekhawatiran terhadap meningkatnya ketergantungan masyarakat pada AI generatif untuk menjawab pertanyaan kesehatan yang seharusnya ditangani oleh tenaga profesional.
Setengah Jawaban Chatbot AI Dinilai Bermasalah
Disitat dari laman The Standard, sebuah studi terbaru yang dipublikasikan dalam jurnal BMJ Open menemukan sekitar 50% jawaban chatbot AI terhadap pertanyaan medis tergolong bermasalah. Dari jumlah tersebut, hampir 20% masuk kategori sangat bermasalah.
Penelitian ini melibatkan lima platform populer, yaitu ChatGPT, Gemini, Meta AI, Grok, dan DeepSeek. Dalam studi lain yang menguji 50 pertanyaan medis, semua chatbot terbukti memiliki kelemahan. Grok mencatat tingkat respons bermasalah tertinggi sebesar 58%, diikuti ChatGPT sebesar 52% dan Meta AI sebesar 50%.
Salah satu temuan paling menonjol adalah bagaimana chatbot AI mampu memberikan jawaban yang terdengar meyakinkan, meskipun tidak selalu benar secara ilmiah.
Para peneliti menemukan tidak ada satu pun chatbot yang mampu menyajikan daftar referensi lengkap dan akurat ketika diminta. Banyak jawaban juga mengandung informasi yang sebagian atau sepenuhnya dibuat.
Dalam penelitian tersebut, hanya terdapat dua kasus penolakan untuk menjawab pertanyaan, dan keduanya berasal dari Meta AI. Penelitian sebelumnya bahkan menunjukkan hanya 32% dari lebih dari 500 kutipan yang dihasilkan oleh ChatGPT, ScholarGPT, dan sistem pencarian mendalam yang benar-benar akurat. Sisanya ditemukan memiliki unsur ketidakakuratan atau fabrikasi.
Fenomena Halusinasi dan Bias Jadi Penyebab Utama
Para ahli menjelaskan fenomena ini sebagai halusinasi AI, yaitu kondisi ketika sistem menghasilkan informasi yang tidak sesuai fakta. Hal ini terjadi karena chatbot bekerja dengan cara memprediksi pola kata berdasarkan data pelatihan, bukan memahami kebenaran secara mendalam.
Selain itu, data pelatihan yang bias atau tidak lengkap juga memperparah masalah. Model AI yang disesuaikan dengan umpan balik manusia juga cenderung menunjukkan kecenderungan untuk menyenangkan pengguna.
Hal ini membuat sistem lebih memilih jawaban yang selaras dengan keyakinan pengguna dibandingkan fakta yang akurat. Para peneliti menegaskan chatbot tidak mengakses data secara real time, tidak menimbang bukti ilmiah, dan tidak mampu membuat penilaian etis atau berbasis nilai.
Keterbatasan ini membuat respons yang dihasilkan terdengar otoritatif, tetapi berpotensi cacat.
Topik Medis Tertentu Lebih Rentan Terhadap Kesalahan
Dalam studi tersebut, para peneliti mengajukan berbagai pertanyaan kesehatan yang mencakup topik luas, mulai dari vaksin, kanker, hingga nutrisi dan kebugaran.
Pertanyaan yang diajukan antara lain terkait efektivitas vitamin D dalam mencegah kanker, keamanan vaksin Covid-19, risiko vaksinasi pada anak, terapi sel induk untuk penyakit parkinson, hingga pola makan seperti diet karnivora.
Hasil penelitian menunjukkan chatbot memiliki performa yang relatif lebih baik pada topik vaksin dan kanker, terutama ketika pertanyaan bersifat tertutup. Sebaliknya, performa terburuk ditemukan pada topik sel induk, nutrisi, dan performa atletik, terutama pada pertanyaan terbuka.
Para peneliti menegaskan chatbot AI tidak memiliki izin maupun kemampuan untuk memberikan nasihat medis. Sistem ini tidak memiliki penilaian klinis, tidak mampu melakukan diagnosis, serta tidak selalu memiliki akses ke informasi medis terbaru.
Oleh karena itu, penggunaannya dalam dunia kesehatan harus diawasi secara ketat. Tanpa pengawasan, chatbot berisiko memberikan informasi yang menyesatkan dan berbahaya bagi pengguna.
Popularitas Chatbot AI dalam Bidang Kesehatan Terus Meningkat
Meskipun memiliki berbagai keterbatasan, penggunaan chatbot AI dalam bidang kesehatan terus meningkat secara signifikan. OpenAI mengungkap lebih dari 200 juta pengguna mengajukan pertanyaan kesehatan dan kebugaran ke ChatGPT setiap minggu. Hal ini menunjukkan tingginya tingkat kepercayaan publik terhadap teknologi ini.
Selain itu, OpenAI telah meluncurkan alat kesehatan untuk pengguna umum dan tenaga medis. Sementara itu, Anthropic juga memperkenalkan layanan kesehatan melalui produk Claude.
Perkembangan ini menandakan chatbot AI semakin terintegrasi dalam kehidupan sehari-hari, termasuk dalam pengambilan keputusan terkait kesehatan.
Para peneliti dari berbagai institusi, termasuk University of Alberta dan Loughborough University, menekankan pentingnya pengawasan terhadap penggunaan chatbot AI.
Mereka memperingatkan tanpa edukasi dan pengawasan yang memadai, teknologi ini dapat memperkuat penyebaran misinformasi kesehatan dan menyesatkan masyarakat.
Temuan ini menunjukkan perlunya evaluasi ulang terhadap bagaimana chatbot AI digunakan dalam komunikasi kesehatan publik. Sistem ini dapat menghasilkan jawaban yang terdengar meyakinkan, tetapi memiliki kelemahan mendasar dalam akurasi dan validitas.
Chatbot AI memang menawarkan kemudahan akses informasi, tetapi dalam konteks medis, penggunaannya masih memiliki risiko besar. Tanpa kemampuan memahami konteks klinis, mengevaluasi bukti ilmiah, dan memastikan akurasi data, chatbot tidak dapat menggantikan peran tenaga medis profesional.






