
Genomik dizileme teknolojilerindeki son devrim, biyolojik bilimlerde keşfedilmemiş alanların kapılarını araladı; ancak bu ilerleme, araştırmacıların baş etmekte zorlandığı devasa bir "veri tufanını" da beraberinde getirdi. Laboratuvarlar ve araştırma merkezleri, her geçen gün artan DNA verilerini işlemek, saklamak ve analiz etmek konusunda ciddi bir darboğazla karşı karşıya. Nature Genetics dergisinde yayımlanan çığır açıcı yeni bir çalışma, bu soruna radikal bir çözüm sunuyor.
Araştırmacılar, en büyük genomik projelerin bile ürettiği devasa veri hacimlerini yönetilebilir hale getiren ve bugüne kadar görülmemiş sıkıştırma seviyelerine ulaşan yeni bir yöntem geliştirdi. Bu yeni yaklaşım, yüksek maliyetli sunucu altyapılarına sahip olmayan laboratuvarlar için bile pangenomik veri kaynaklarını erişilebilir ve kullanılabilir hale getirme potansiyeli taşıyor.
Biyoinformatiğin erken dönem projeleri, genellikle tek bir bireyden türetilen temsili referans genomlara odaklanıyordu. Ancak gelişen pangenomik alanı, hedeflerini çok daha yükseğe koymuş durumda. Pangenomik çalışmalarda araştırmacılar, bir türün DNA’sında bulunan tüm genetik varyasyonu yakalamak için tek bir türden birçok genomu bir araya getiriyor. Bu yaklaşım, mutasyonların patojen yayılımını veya ilaç direncini nasıl etkilediğini göstermek açısından kritik bir öneme sahip.
Bu genişletilmiş vizyon, araştırma için daha geniş bir mercek sunsa da, laboratuvarların veri depolama altyapıları üzerinde muazzam bir baskı oluşturuyor. Pangenomları saklayan konsorsiyumlar, terabaytlarca sıkıştırılmamış FASTA dosyası (nükleotid dizilerinin metin tabanlı dosyaları) biriktiriyor. Bu dosyaları erişilebilir kılmak için gereken veri işleme süreçleri ise pratik olmayan derecede uzun süreler alabiliyor.
"Pangenomik araştırmalarda kullanılan veri yapıları kritiktir; çünkü bunlar genetik verinin ne kadar verimli temsil edildiğini belirlemekle kalmaz, aynı zamanda verinin neleri temsil edebileceğini de sınırlar."
– Sumit Walia, California Üniversitesi, San Diego (UCSD)
Mevcut pangenomik veri kaynaklarını görselleştirmek oldukça zorludur. Alanında popüler hale gelen grafik tabanlı veri formatları bile yüksek depolama gereksinimlerine sahiptir ve genomların genetik geçmişinden gelen tüm ilgili bilgileri yakalamakta yetersiz kalabilir. Özellikle toplanan genomların paylaşılan mutasyonel ve evrimsel geçmişleri, mevcut yöntemlerle kaybolma riski taşır.
UCSD mühendislerinden Yatish Turakhia liderliğindeki bir ekip, bu sorunları aşmak için Pangenome Mutation-Annotated Network (PanMAN) adını verdikleri yeni bir dosya formatı ve veri yapısı geliştirdi. Bu yapı, pangenomik verinin potansiyelini maksimize etmek için tasarlandı.
Ekip, yeni çalışmalarında PanMAN’ın genomik veriyi sıkıştırma yeteneğini SARS-CoV-2 virüs genomu üzerinde test etti. Sekiz milyon ayrı viral genomdan oluşan devasa bir viral pangenom oluşturdular. Sonuçlar ise sektör için şaşırtıcıydı:
Turakhia, "PanMAN ile geliştirdiğimiz sıkıştırma tekniği, ‘daha azıyla daha fazlasını yapmayı’ mümkün kılıyor ve mevcut pangenomik analizlerin ölçeğini ve kapsamını büyük ölçüde geliştiriyor" diyerek teknolojinin önemini vurguluyor.
PanMAN formatı, bireysel genomları grafiksel ağaçların kökleri olarak görselleştiriyor. Ağacın farklı dalları, mutasyonlar gibi genomik özellikleri temsil ediyor. Birden fazla ebeveyn dizisini içeren karmaşık mutasyonlar, bu ağaçlar arasındaki bağlantı kenarları olarak gösteriliyor. Bu sayede, tekil mutasyonlar birden fazla konumda tekrar tekrar saklanmak yerine, paylaşılan dallarda yalnızca bir kez depolanıyor.
Bu teknik, diğer grafiksel temsillerin kaçırdığı atasal diziler ve filogeni (phylogeny) gibi yararlı verileri de doğrudan ve dolaylı olarak saklayabiliyor. Bu, sadece veriyi küçültmekle kalmıyor, verinin biyolojik anlamını da koruyor.
Ekibin bir sonraki adımı, PanMAN tekniğini insan genomlarına uygulayarak etkinin çapını genişletmek. İnsan genetik verilerinin bu ölçekte sıkıştırılması ve işlenmesi, kişiselleştirilmiş tıptan popülasyon genetiğine kadar pek çok alanda devrim yaratabilir.
Turakhia, vizyonunu şu sözlerle özetliyor: "Sıkıştırıcı pangenomik yaklaşımların insan genomlarına genişletilmesi, büyük ölçekli insan genetik verilerini nasıl sakladığımızı, analiz ettiğimizi ve paylaştığımızı temelden değiştirebilir. İnsan genetik çeşitliliği, hastalıklar ve evrim üzerine benzeri görülmemiş ölçekte ve hızda çalışmalara olanak tanımanın yanı sıra, mevcut temsillerin yakalayamadığı, çeşitli insan popülasyonlarını şekillendiren ayrıntılı evrimsel ve mutasyonel geçmişleri de resmedebilir."
Tüm Hakları Saklıdır @ 2025 - Tasarım ve Yazılım: brain.work