Radyoloji kurul sınavı soruları üzerindeki performansını değerlendirmek ve güçlü ve sınırlı yönlerini keşfetmek için Dr. Bhayana ve meslektaşları ChatGPT’yi ilk olarak şu anda en yaygın kullanılan versiyon olan GPT-3.5’i temel alarak test etti. Araştırmacılar, Kanada Kraliyet Koleji ve Amerikan Radyoloji Kurulu sınavlarının stiline, içeriğine ve zorluğuna uyacak şekilde tasarlanmış 150 çoktan seçmeli soru kullandılar.
Sorular görüntü içermiyordu ve performans hakkında fikir edinmek için soru türüne göre gruplandırıldı: alt düzey (bilgi hatırlama, temel anlama) ve üst düzey (uygulama, analiz, sentez) düşünme. Üst düzey düşünme soruları ayrıca türe göre (görüntüleme bulgularının tanımı, klinik yönetim, hesaplama ve sınıflandırma, hastalık ilişkileri) alt sınıflandırmaya tabi tutuldu.
ChatGPT’nin performansı genel olarak ve soru türüne ve konuya göre değerlendirildi. Yanıtlardaki dil güveni de değerlendirildi.
Araştırmacılar, GPT-3.5 tabanlı ChatGPT’nin soruların %69’unu doğru yanıtladığını (150 sorudan 104’ü) ve bu oranın Kanada Kraliyet Koleji tarafından kullanılan %70’lik geçme notuna yakın olduğunu tespit edildi. Model, alt düzey düşünme gerektiren sorularda nispeten iyi performans gösterirken (%84, 61’de 51), üst düzey düşünme içeren sorularda zorlandı (%60, 89’da 53).
Daha spesifik olarak, görüntüleme bulgularının tanımlanmasını (%61, 46’da 28), hesaplama ve sınıflandırmayı (%25, 8’de 2) ve kavramların uygulanmasını (%30, 10’da 3) içeren üst düzey sorularda zorlandığı görüldü.
Bir takip çalışmasında, GPT-4 aynı soruların %81’ini (150 sorudan 121’i) doğru yanıtlayarak GPT-3.5’ten daha iyi performans göstermiş ve %70’lik geçme eşiğini aştı. GPT-4, özellikle görüntüleme bulgularının tanımlanması (%85) ve kavramların uygulanmasını (%90) içeren üst düzey düşünme sorularında (%81) GPT-3.5’ten çok daha iyi performans gösterdi.
medimagazin.com.tr