
Columbia Üniversitesi’nde yapay zeka (AI) araştırmacısı olarak görev yapan Maxim Topaz, prestijli bir bilimsel dergiye makale gönderdiğinde sürecin rutin işleyeceğini düşünüyordu. Ancak editoryal ekipten gelen bir e-posta, tüm bilim dünyasını sarsacak bir gerçeğin kapısını araladı. E-postada, makaledeki referanslardan birinin doğruluğu sorgulanıyordu. Topaz kısa süre içinde acı gerçekle yüzleşti: Makalesini hazırlarken destek aldığı yapay zeka aracı, tamamen hayal ürünü olan sahte bir referans üretmişti.
Topaz, bu kişisel aydınlanmasını şu sözlerle özetliyor:
“Eğer bu durum her gün yapay zeka ile çalışan birinin bile başına gelebiliyorsa, inanın herkesin başına gelebilir.”
Bu olay, Topaz’ı sorunun boyutlarını araştırmaya itti. Ekibiyle birlikte, hatalı literatürü tespit etmek için özel olarak tasarlanmış CITADEL (Citation Integrity Testing and Detection of Erroneous Literature) adını verdikleri otomatik bir doğrulama sistemi geliştirdiler. Geliştirilen bu yazılım ile PubMed Central veri tabanındaki tam 2.5 milyon biyomedikal makale mercek altına alındı.
The Lancet dergisinde yayımlanan araştırma sonuçları, tıp literatüründe sessizce büyüyen bir metastazı gözler önüne seriyor. Büyük Dil Modellerinin (LLM) bilimsel yazım süreçlerine entegre olmasıyla birlikte, makalelerde “halüsinasyon” olarak adlandırılan ve gerçekte var olmayan çalışmalara yapılan atıfların sayısında muazzam bir artış yaşandı.
CITADEL sistemi kullanılarak 1 Ocak 2023 ile 18 Şubat 2026 tarihleri arasını kapsayan devasa veri seti analiz edildi. Taranan 2.5 milyon makaledeki 125.6 milyon referans, dijital nesne tanımlayıcıları (DOI) ve PubMed ID’leri üzerinden çapraz kontrole tabi tutuldu. Google Scholar, CrossRef ve OpenAlex gibi küresel veri tabanlarında karşılığı olmayan referanslar “sahte” olarak etiketlendi.
Toplamda 2.810 makaleye dağılmış, hiçbir zaman yazılmamış ve yayımlanmamış 4.046 sahte referans tespit edildi.
Peki bu durum laboratuvar tezgahlarından çıkıp hasta yatağına nasıl yansıyor? Sorunun en kritik noktası, bu sahte referansların hangi tür makalelerde yoğunlaştığı. Araştırmacılar, tıbbi bilginin sentezlendiği ve klinik yönergelerin oluşturulmasında temel alınan derleme (review) makalelerinde sahte referans oranının diğer yayın türlerine göre çok daha yüksek olduğunu tespit etti.
Topaz, bu durumun yaratacağı domino etkisini şöyle açıklıyor:
“Derleme makaleleri, tıbbi bilginin sentez katmanı olarak hizmet eder. Eğer bu katman kirlenirse, bu kirlilik doğrudan klinik uygulamalara ve aşağı akışa (downstream) doğru yayılır. Bir hekim, bir kılavuzu takip ederken, altta yatan kanıtların bir kısmının aslında hiç var olmamış çalışmalara işaret ettiğini bilemez.”
Sidney Üniversitesi’nden kanser araştırmaları literatür araştırmacısı Jennifer Byrne, sorunun yapay zekaya duyulan aşırı güvenden kaynaklandığını vurguluyor. Ancak asıl skandal, tespit edilen 2.810 hatalı makalenin yüzde 98.4’ü hakkında yayıncılar tarafından hiçbir işlem yapılmamış olması.
Topaz ve Byrne, sorunun çözümünün ücretsiz çalışan ve halihazırda ağır bir iş yükü altında olan hakemlere (peer-reviewers) yıkılamayacağı konusunda hemfikir. Yayıncıların, hakem değerlendirme sürecinden önce referansları otomatik olarak doğrulayan sistemleri devreye sokması gerekiyor. Topaz, bu konudaki engelin teknolojik değil, tamamen kurumsal olduğunu belirtiyor.
Bilimsel literatürün güvenilirliği, modern tıbbın üzerine inşa edildiği en temel kolondur. Yapay zekanın sunduğu kolaylıklar, bilimin kendi kendini doğrulama mekanizmasını çökertmeden önce, yayın dünyasının teknolojik bir savunma hattı kurması artık bir tercih değil, zorunluluktur.
Tüm Hakları Saklıdır @ 2025 - Tasarım ve Yazılım: brain.work