Yeni bir çalışmada, GPT-4'ün klinik muhakeme konusunda doktorlardan daha iyi performans gösterdiği ancak aynı zamanda daha sık yanıldığı da ortaya çıktı.
Yeni olarak StajBeth Israel Deaconess Tıp Merkezi'ndeki (BIDMC) bilim insanları, geniş bir dil modelinin klinik muhakeme yeteneklerini insan klinisyen meslektaşlarınınkilerle karşılaştırdı. Araştırmacılar, yaygın olarak kullanılan Revised IDEA (r-IDEA) puanını kullandılar. bir araç Klinik muhakemeyi değerlendirmek.
Çalışma, teşhis nedenlerini belirlemek ve bunlar üzerinde çalışmak için bir GPT-4 sohbet robotu, 21 ilgili hekim ve 18 asistana 20 klinik vaka verilmesini gerektirdi. Üç cevap seti daha sonra r-IDEA puanı kullanılarak değerlendirildi. Araştırmacılar, chatbotun aslında en yüksek r-IDEA puanlarını aldığını buldu; bu puanların tanısal akıl yürütme açısından zaten etkileyici olduğu kanıtlandı. Ancak yazarlar, chatbot'un çoğunlukla “tamamen yanlış” olduğunu da belirtti.
Çalışmanın başyazarı Stephanie Cabral, MD, PhD, “MBA'nın klinik pratiğe en iyi şekilde nasıl entegre edileceğini belirlemek için daha fazla çalışmaya ihtiyaç var” diye açıkladı, “ancak şimdilik bir kontrol noktası olarak yararlı olabilir, Bir şeyi kaçırıyorsunuz.” Kısacası, ciddi hatalar olmasına rağmen sonuçlar, chatbot'un sağlam bir mantık yürüttüğünü gösterdi; bu, yapay zeka destekli sistemlerin (en azından mevcut olgunluk seviyelerinde) en iyisi olduğu fikrini güçlendiriyor. Doktorun teşhis yeteneklerinin yerine geçmek yerine, hekimin uygulamalarını geliştirecek araçlar olarak.
Tıbbi liderlerin ve teknoloji uzmanlarının sıklıkla açıkladığı gibi, bunun nedeni tıp pratiğinin yalnızca algoritmik kuralların çıktısına dayanmaması, bunun yerine derin bir akıl yürütme duygusuna ve klinik sezgiye dayanmasıdır; bu, bir Yüksek Lisans tarafından kopyalanması zordur. Ancak teşhis veya klinik destek sağlayabilen bu gibi araçlar, bir doktorun iş akışında hala inanılmaz derecede güçlü bir varlıktır. Örneğin, sistemler makul bir şekilde bir “ilk geçiş” sağlayabilir veya hastanın geçmişi veya mevcut kayıtlar gibi mevcut verilere dayanarak bir ilk teşhis önerebilirse, bu, klinisyenlerin teşhis sürecinde önemli miktarda zaman tasarrufu sağlamasına olanak tanıyabilir. Ayrıca, eğer bu araçlar doktorun iş akışını arttırabilir ve tıbbi kayıtlardan büyük miktarda klinik bilgiyi işleme araçlarını geliştirebilirse, verimliliğin arttırılması için fırsatlar doğabilir.
Pek çok kuruluş, klinik iyileştirmenin bu potansiyel araçlarından yararlanıyor. Örneğin yapay zeka destekli yazma teknolojileri, klinisyenlerin klinik belgeleri daha verimli bir şekilde tamamlamasına yardımcı olmak için doğal dil işlemeden yararlanıyor. Kurumsal arama araçları, klinisyenlerin büyük veri kümelerini aramasına, verilerin birlikte çalışabilirliğini geliştirmesine ve mevcut hasta verileriyle ilgili daha hızlı ve daha derin içgörüler elde etmesine yardımcı olmak için kuruluşlarla ve elektronik tıbbi kayıt sistemleriyle entegre edilmiştir. Diğer sistemler ilk teşhisin sağlanmasına yardımcı olabilir; Örneğin, radyoloji ve dermatoloji alanlarında, yüklenen bir görüntüyü analiz ederek olası bir teşhis önerebilen araçlar ortaya çıkıyor.
Ancak bu alanda hala yapılması gereken çok iş var. Basitçe söylemek gerekirse, bunun gibi yapay zeka sistemleri klinik tanıya hazır olmasa da, özellikle güvenli, emniyetli ve doğru operasyonlar sağlamak için insanları bilgilendirirken, klinik iş akışlarını geliştirmek için bu teknolojiden yararlanma fırsatı hala mevcut olabilir.