Asya

DeepSeek, yeni nesil yapay zekâya geçişte deneysel ara modelini sundu

Yayınlanma

Çinli yapay zekâ şirketi DeepSeek, işlem maliyetlerini düşürmeyi ve uzun metinleri daha verimli işlemeyi hedefleyen yeni bir deneysel model yayımladı. ‘DeepSeek Sparse Attention’ adı verilen yeni mekanizma, modelin daha az sunucu yüküyle çalışmasını sağlıyor.

Çinli yapay zekâ geliştiricisi DeepSeek, önceki sürümlerine göre daha verimli eğitilebildiği ve uzun metinleri işleme kapasitesinin arttığı belirtilen yeni bir deneysel model tanıttı.

Merkezi Hangzhou’da bulunan şirket, DeepSeek-V3.2-Exp adını taşıyan modeli, yeni nesil mimarinin oluşturulmasında bir ara aşama olarak tanımladı.

Şirketin açıklamasına göre bu mimari, DeepSeek’in Silikon Vadisi’nde ve Çin dışındaki yatırımcılar arasında ilgi gören V3 ve R1 modellerinden bu yana en dikkat çekici adımı olabilir.

Maliyetleri düşüren ‘seyrek dikkat’ mekanizması

TechCrunch portalının haberine göre yeni model, “DeepSeek Sparse Attention” adını taşıyan bir mekanizma içeriyor. Çinli şirkete göre bu sistem, hesaplama maliyetlerini azaltırken performans göstergelerinin bir bölümünü iyileştiriyor.

Modelin en önemli unsuru olarak öne çıkarılan bu sistem, karmaşık bir yapıya sahip. Şirketin paylaştığı şemaya göre, “lightning indexer” (yıldırım dizinleyici) isimli bir modül önce bağlam penceresinden belirli bölümlere öncelik veriyor.

Ardından “fine-grained token selection system” (ince ayarlı belirteç seçimi sistemi) devreye girerek bu bölümlerin içinden seçilen belirli kelimeleri sınırlı dikkat penceresine yüklüyor.

Bu iki adımın birleşimi, modelin uzun metinleri görece düşük sunucu yüküyle işlemesine olanak tanıyor.

API maliyetlerinde yüzde 50’den fazla düşüş

DeepSeek, dün sosyal medya platformu X’te yaptığı paylaşımda, API kullanım maliyetlerini yüzde 50’nin üzerinde düşürdüğünü duyurmuştu.

Şirket araştırmacıları, aynı gün Hugging Face platformunda yayımladıkları duyuruyla V3.2-Exp modelini kamuoyuna sundu. Eş zamanlı olarak GitHub’da akademik makalenin bağlantısı da paylaşıldı.

DeepSeek’in ön testlerine göre, basit bir API çağrısının maliyeti bu yöntemle yarı yarıya düşebiliyor. Şirket, daha kapsamlı sonuçlar için yeni testler yapılması gerektiğini belirtiyor.

Ancak modelin açık kaynaklı ve ücretsiz olarak Hugging Face’te erişime açılması, üçüncü tarafların bu iddiaları kısa sürede sınamasını mümkün kılacak.

Çinli şirket, ABD’li rakiplerine ipucu sunabilir

DeepSeek’in yeni modeli, son dönemde “çıkarım maliyeti” sorununa yönelik çözümler arasında öne çıkıyor. Çıkarım maliyeti, önceden eğitilmiş bir yapay zekâ modelinin çalıştırılması sırasında ortaya çıkan sunucu masraflarını ifade ediyor.

DeepSeek ekibi, temelini “transformer” mimarisinin oluşturduğu yapının daha verimli çalışmasını sağlamaya odaklandıklarını ve bu alanda kayda değer gelişmeler elde ettiklerini aktarıyor.

Çin merkezli DeepSeek, yılın başında pekiştirmeli öğrenme yöntemleriyle ve Amerikalı rakiplerine göre çok daha düşük maliyetle eğittiği R1 modeliyle dikkat çekmişti.

Fakat bu model, yapay zekâ eğitiminde köklü bir dönüşüm yaratmadı ve şirket son aylarda gündemin gerisinde kaldı.

Yeni “sparse attention” yaklaşımının R1 modelinde olduğu gibi büyük bir etki yaratması beklenmiyor. Buna rağmen yöntemin, çıkarım maliyetlerini düşürme konusunda Amerikalı şirketlere önemli ipuçları sunabileceği belirtiliyor.

Çok Okunanlar

Exit mobile version