Amerika

AI tıbbi araçlar, kadınlarda ve azınlıklarda görülen semptomları “önemsizleştiriyor”

Yayınlanma

19.09.2025 14:31

Yazar

Harici.com.tr

Doktorlar tarafından kullanılan yapay zeka (AI) araçları, kadınlar ve etnik azınlıklar için daha kötü sağlık sonuçlarına yol açma riski taşıyor.

Financial Times’a (FT) göre giderek artan sayıda araştırma, birçok büyük dil modelinin bu hastaların semptomlarını hafife aldığını gösteriyor.

Son zamanlarda yapılan bir dizi araştırma, sağlık sektöründe AI modellerinin benimsenmesinin “önyargılı tıbbi kararlar” alınmasına yol açabileceğini ve batı toplumlarında farklı gruplar arasında zaten var olan yetersiz tedavi eğilimlerini pekiştirebileceğini ortaya koydu.

ABD ve İngiltere’nin önde gelen üniversitelerindeki araştırmacıların bulguları, büyük dil modelleri (LLM) ile desteklenen tıbbi yapay zeka araçlarının kadın hastaların semptomlarının ciddiyetini yansıtmama eğiliminde olduğunu ve aynı zamanda siyahi ve Asyalı hastalara karşı daha az “empati” gösterdiğini ortaya koyuyor.

Bu uyarılar, Microsoft, Amazon, OpenAI ve Google gibi dünyanın önde gelen AI gruplarının, dünya çapında aşırı yüklenmiş sağlık sistemlerine yardımcı olmak amacıyla, doktorların iş yükünü azaltmayı ve tedaviyi hızlandırmayı amaçlayan ürünler geliştirmek için acele etmesiyle birlikte geliyor.

Dünya çapında birçok hastane ve doktor, Gemini ve ChatGPT gibi LLM’lerin yanı sıra Nabla ve Heidi gibi startup’ların AI tıbbi not alma uygulamalarını kullanarak hasta ziyaretlerinin transkriptlerini otomatik olarak oluşturuyor, tıbbi açıdan önemli ayrıntıları vurguluyor ve klinik özetler oluşturuyor.

Haziran ayında Microsoft, karmaşık rahatsızlıkların teşhisinde insan doktorlardan dört kat daha başarılı olduğunu iddia ettiği AI destekli bir tıbbi araç geliştirdiğini açıkladı.

Fakat MIT Jameel Clinic tarafından haziran ayında yapılan bir araştırma, OpenAI’ın GPT-4, Meta’nın Llama 3 ve sağlık hizmetlerine odaklanan bir LLM olan Palmyra-Med gibi yapay zeka modellerinin kadın hastalara çok daha düşük düzeyde bakım önerdiğini ve bazı hastaların yardım aramak yerine evde kendi kendilerine tedavi olmalarını önerdiğini ortaya koydu.

MIT ekibi tarafından yapılan ayrı bir araştırma, OpenAI’ın GPT-4 ve diğer modellerinin, zihinsel sağlık sorunları için destek arayan Siyah ve Asyalı kişilere karşı “daha az şefkatli” yanıtlar verdiğini gösterdi.

MIT Jameel Clinic’te doçent Marzyeh Ghassemi, “Bazı hastalar, modelin algıladığı ırklarına dayalı olarak çok daha az destekleyici rehberlik alabilirler,” dedi.

Benzer şekilde, London School of Economics tarafından yapılan bir araştırma, Birleşik Krallık’taki yerel yönetimlerin yarısından fazlası tarafından sosyal hizmet uzmanlarını desteklemek için kullanılan Google’ın Gemma modelinin, vaka notlarını oluşturmak ve özetlemek için kullanıldığında kadınların fiziksel ve zihinsel sorunlarını erkeklerin sorunlarına kıyasla önemsizleştirdiğini ortaya koydu.

Ghassemi’nin MIT ekibi, mesajlarında yazım hataları, gayri resmi dil veya belirsiz ifadeler bulunan hastaların, klinik içerik aynı olsa bile, tıbbi ortamda kullanılan AI modelleri tarafından tıbbi bakım almamaları tavsiye edilme olasılığının, mükemmel biçimlendirilmiş iletişime sahip hastalara göre %7-9 daha fazla olduğunu buldu.

Bu, İngilizceyi ana dili olarak konuşmayan veya teknolojiyi kullanmakta rahat olmayan kişilerin haksız muameleye maruz kalmasına neden olabilir.

Zararlı önyargı sorunu kısmen LLM’leri eğitmek için kullanılan verilerden kaynaklanıyor. GPT-4, Llama ve Gemini gibi genel amaçlı modeller, internetten alınan veriler kullanılarak eğitiliyor ve bu kaynaklardaki önyargılar yanıtlara yansıyor.

AI geliştiricileri, model eğitildikten sonra güvenlik önlemleri ekleyerek bunun sistemlere nasıl sızdığını da etkileyebilir.

Kaliforniya Üniversitesi, San Francisco’da yardımcı profesör ve AI tıbbi bilgi startup’ı Open Evidence’ın tıbbi direktörü Travis Zack, “Reddit alt forumunun sağlık kararlarınızda size tavsiyede bulunma ihtimali olan herhangi bir durumda, bunun güvenli bir yer olduğunu düşünmüyorum,” dedi.

Geçen yıl yapılan bir çalışmada Zack ve ekibi, GPT-4’ün tıbbi durumların demografik çeşitliliğini dikkate almadığını ve belirli ırk, etnik köken ve cinsiyetleri stereotipleştirme eğiliminde olduğunu buldu.

Araştırmacılar, sağlık araştırmalarındaki verilerin genellikle erkeklere ağırlık verdiği ve kadınların sağlık sorunlarının kronik olarak yetersiz finansman ve araştırma ile karşı karşıya olduğu için, AI araçlarının sağlık sektöründe halihazırda var olan yetersiz tedavi kalıplarını pekiştirebileceği konusunda uyarıda bulundu.

OpenAI, birçok çalışmanın GPT-4’ün eski bir modelini değerlendirdiğini ve şirketin lansmanından bu yana doğruluğu artırdığını söyledi. Şirket, özellikle sağlığa odaklanarak, zararlı veya yanıltıcı çıktıları azaltmak için çalışan ekipler kurdu.

OpenAI, modellerini değerlendirmek, davranışlarını stres testine tabi tutmak ve riskleri belirlemek için dış klinisyenler ve araştırmacılarla da çalıştığını belirtti.

Grup ayrıca, farklı tarzlarda, farklı düzeylerde ve farklı ayrıntılarda kullanıcı sorgularını dikkate alan, sağlık alanındaki LLM yeteneklerini değerlendirmek için doktorlarla birlikte bir karşılaştırma ölçütü geliştirdi.

Google, model önyargısını “son derece ciddiye” aldığını ve hassas veri kümelerini temizleyebilen ve önyargı ve ayrımcılığa karşı koruma önlemleri geliştirebilen gizlilik teknikleri geliştirdiğini belirtti.

Araştırmacılar, AI’da tıbbi önyargıyı azaltmanın bir yolunun, öncelikle eğitim için hangi veri kümelerinin kullanılmaması gerektiğini belirlemek ve ardından çeşitli ve daha temsil edici sağlık veri kümeleri üzerinde eğitim yapmak olduğunu öne sürdü.

Zack, ABD’de 400.000 doktor tarafından hasta geçmişlerini özetlemek ve bilgi almak için kullanılan Open Evidence’ın modellerini tıbbi dergiler, ABD Gıda ve İlaç İdaresinin etiketleri, sağlık kılavuzları ve uzman incelemeleri üzerinde eğittiğini söyledi ve her AI çıktısının ayrıca bir kaynağa atıfla desteklenmesini istedi.

Bu yılın başlarında, University College London ve King’s College London’daki araştırmacılar, Birleşik Krallık’ın NHS ile işbirliği yaparak Foresight adlı üretken bir AI modeli geliştirdiler.

Model, 57 milyon kişinin hastaneye yatışları ve Covid-19 aşıları gibi tıbbi olaylara ilişkin anonimleştirilmiş hasta verileriyle eğitildi. Foresight, hastaneye yatış veya kalp krizi gibi olası sağlık sonuçlarını tahmin etmek için tasarlandı.

Foresight ekibinin baş araştırmacısı ve UCL’nin onursal kıdemli araştırma görevlisi Chris Tomlinson, “Ulusal ölçekte verilerle çalışmak, demografi ve hastalıklar açısından İngiltere’nin tüm çeşitliliğini temsil etmemizi sağlıyor,” dedi.

Tomlinson, mükemmel olmasa da, daha genel veri kümelerinden daha iyi bir başlangıç sunduğunu söyledi.

Avrupalı bilim adamları ayrıca, UK Biobank’ta yer alan 400.000 katılımcının anonimleştirilmiş tıbbi kayıtlarına dayanarak, gelecek on yıllar içinde hastalıklara yatkınlığı tahmin eden Delphi-2M adlı bir yapay zeka modeli geliştirdiler.

Fakat bu ölçekte gerçek hasta verileri söz konusu olduğunda, gizlilik genellikle bir sorun haline gelir. NHS Foresight projesi, Birleşik Krallık Bilgi Komiseri Ofisinin, modelin eğitiminde hassas sağlık verilerinin kullanımıyla ilgili olarak İngiliz Tıp Birliği ve Kraliyet Genel Pratisyenler Koleji tarafından yapılan veri koruma şikayetini değerlendirmesi için haziran ayında askıya alındı.

Buna ek olarak, uzmanlar AI sistemlerinin sıklıkla “halüsinasyon gördüğünü” veya cevapları uydurduğunu ve bunun tıbbi bağlamda özellikle zararlı olabileceğini uyardı.

Öte yandan MIT’den Ghassemi, AI’ın sağlık hizmetlerine büyük faydalar sağladığını söyledi.

Ghassemi, “Umudum, sağlık alanındaki modelleri, doktorların zaten oldukça iyi oldukları görev performansına ekstra bir yüzde eklemek yerine, önemli sağlık açıklarını gidermeye odaklamaya başlamamızdır,” dedi.

Çok Okunanlar